Mozilla 用 Claude Mythos Preview 刷新了 AI 安全研究的记录
来源:Simon Willison's Weblog | 原文:Mozilla Hacks
一个悲伤的事实:AI 找 Bug 曾经是个笑话
就在几个月前,AI 生成的安全漏洞报告还是臭名昭著的 Slop——看起来煞有介事,实则胡说八道。安全研究员对此深恶痛绝:维护者花大量时间回复假阳性报告,而这些报告的生产成本几乎为零。
Simon Willison 在他的博客里用了 Mozilla 的原话来形容这个转变:
”Suddenly, the bugs are very good”(突然,这些 Bug 就很靠谱了)
这句话出现在 Mozilla 工程师写的官方博客里,分量不言而喻。
数字说话:423 个安全漏洞,4 月单月
这是 Mozilla 披露的官方数据:
- 2025 年:每月修复 20~30 个 Firefox 安全漏洞
- 2026 年 4 月:423 个 安全漏洞被修复
- 其中,271 个 由 Claude Mythos Preview 挖出
423 是什么概念?翻了 15 倍。
更惊人的是,这次不只是数量爆炸——质量也炸了。他们挖出的漏洞包括:
| Bug |
年龄 |
类型 |
| XSLT 哈希表 bug |
20 年(2006 年引入) |
Use-after-free,可沙箱逃逸 |
<legend> 元素 bug |
15 年(2011 年引入) |
跨浏览器子系统边缘触发 |
| JIT 优化错误 |
— |
可构造任意读写原语 |
| IPC 竞态条件 |
— |
可触发沙箱逃逸 |
这个 <legend> bug 尤其离谱——需要精密编排浏览器远处代码的递归深度限制、expando 属性和循环回收,才能触发它。人工找这种 Bug 需要天才,AI 找这种 Bug 需要算力。 很明显,他们这次有了算力。
他们是怎么做到的?
Mozilla 没有用魔法,他们搭了一套流水线(pipeline)。
核心组件:
- Discovery 子系统:用 Agentic Harness 驱动 AI 扫描代码,对每个可疑点动态生成可复现的测试用例(PoC)
- 调度层:把任务分发到多个临时 VM,每个 VM 专注一个特定文件/子系统,并行挖洞
- 去重 + 工单系统:对接 Mozilla 现有的安全漏洞生命周期工具,过滤已知问题,创建 bug 工单
- 模型版本管理:流水线搭好后,换模型只需要改一行配置。Claude Mythos Preview 一出来,直接换上,效果立竿见影地提升
关键洞察:光有模型不够,需要整个流水线。 Mozilla 工程师原话:”While harnesses may be reusable across projects, this pipeline is inherently project-specific.”(虽然 Harness 可以跨项目复用,但这条流水线是每个项目独特的。)
这对开发者有什么启示?大厂可以搭,小团队能不能也试试?能。Mozilla 的初始 prompt 并不复杂——核心循环就是:”这段代码里有个 Bug,请找出来并写一个测试用例。” 剩下的都是工程迭代。在 云栈社区 里,常有人讨论如何低成本复刻这类自动化工具,思路其实比代码更重要。
那些 Bug 没找到的,反而更让人安心
真正有意思的是他们没有找到什么。
Mozilla 近年来做了一次架构变更:在特权父进程中默认冻结原型(prototype),防止原型污染攻击。在 AI 的扫描日志里,他们看到大量试图走这条路逃逸沙箱的尝试——全部被这道设计防线挡掉了。
“Observing such direct payoff from previous hardening work was even more rewarding than finding and fixing more bugs.”(看到以往加固工作的直接回报,比发现更多 Bug 更令人满足。)
AI 找到了很多东西,但最好的安全仍然是设计层面的纵深防御。这也从侧面印证了 安全/渗透/逆向 领域的一个共识:工具再强,也强不过优雅的架构。
对独立开发者的启示
这个故事里的技术细节当然让人兴奋,但我觉得最有价值的思考是:
AI 安全研究的成本结构正在被彻底颠覆。
传统上,找浏览器漏洞需要:天才 + 多年经验 + 大量时间 + (有时)数万美元的漏洞悬赏。现在,一个人配一台有 GPU 的电脑、几百美元的 API 额度,就能跑一个简化版的扫描流水线。
当然,Firefox 的代码量级和复杂度是另一回事。但思路是一样的:你的代码库越大、越复杂、AI 能发挥的空间就越大。
这不是说 AI 会取代安全研究员——而是让安全研究从”精英专属”变成了”有算力就能参与”的事情,就像 开源实战 让编程从大公司专属变成人人可及一样。