就在刚刚,Anthropic传闻中那个被描述为划时代的全新模型——Claude Mythos,终于放出了它的预览版本。

之前的所有爆料基本都得到了验证,这的确是一款在性能上实现飞跃的模型。在多项核心基准测试中,它对上一代的旗舰模型Claude Opus 4.6实现了全方位的碾压。
这种提升幅度并非“挤牙膏”式的微调,而是一次显著的性能飞跃。
- SWE-bench Pro:在修复代码错误的能力上,提升了惊人的24%。
- Terminal-Bench 2.0:在模拟计算机操作的智能体(Agent)任务中,性能也提升了17%。

不仅如此,即使在更严格的验证集 SWE-bench Verified 上进行测试,Mythos Preview 依然比 Opus 4.6 高出13个百分点。这款模型被命名为 “Mythos”(神话),其性能表现也确实配得上这个名字,当然,其定价同样让人咋舌,达到了 Opus 4.6 的五倍。

但这一次,Anthropic 似乎并不想把重点放在庆祝新的性能记录上。仔细阅读其官方公告,字里行间透露出更多的并非兴奋与炫耀,反而是一种难以掩饰的“担忧”,甚至是某种程度的“恐慌”。
原因在于,这款性能强大的“神话”模型,被发现存在一个足以致命的“缺陷”。
Mythos Preview 已经在各大主流操作系统和浏览器中发现了数千个高危安全漏洞,无一幸免。
当人工智能模型的编程能力突飞猛进,变得越来越像一名优秀的工程师时,与之伴生的另一项能力——发现并利用安全漏洞的能力,也在无可避免地野蛮生长。
现在,Mythos 在寻找和利用代码漏洞方面的能力,已经超越了绝大多数的人类安全研究员或黑客。
模型在代码层面的能力已经强到,在挖掘和利用漏洞这件事上,可以超越绝大多数人类专家,只剩下最顶尖的一小撮人还能与之抗衡。
AI 能力的“硬币的另一面”,终于清晰地展现在我们面前。Anthropic 警告称,按照当前 AI 的发展速度,这种强大的能力很快就会扩散,甚至可能被怀有恶意的人所掌握。一旦失控,对全球经济、公共安全乃至关键基础设施,都可能造成毁灭性的打击。
为了给整个行业和全社会留出足够的应对时间,Anthropic 在这次官宣中做出了一个对于 AI 公司而言极为反常的决定:暂时不向公众开放 Claude Mythos。
是的,Mythos 预览版将首先作为 “玻璃翼计划”(Project Glasswing) 的一部分,仅向其合作伙伴开放。

被严格限制的 Claude Mythos
这可以看作是一场针对潜在安全威胁的、声势浩大的“联合防御演练”。
为了“驯服”Mythos 这头性能怪兽可能带来的安全风险,Anthropic 几乎召集了所有主流的科技巨头。参与方包括 Amazon、Apple、Google、Linux Foundation、Microsoft、NVIDIA 等。
在这个项目中没有旁观者。所有合作方都将把 Mythos Preview 投入到自身的防御性安全工作中。他们将提前接触并利用模型的强大能力,但这并非为了攻击,而是为了在“被未来的 AI 正式版攻击之前”,尽可能加固自己的防线。
Anthropic 表示会将此过程中积累的安全经验和最佳实践分享给整个行业。项目还额外开放给了 40 多家关键软件基础设施的建设和维护者,让他们利用该模型扫描和加固自研及开源系统。
更进一步的举措是,Anthropic 承诺提供高达 1 亿美元的使用额度来支持这些安全工作,并向开源安全组织直接捐赠了 400 万美元。

如此大规模的投入和如此严肃的态度,在 AI 模型的发布历史上是罕见的。此前,虽然常有实验室声称在内部限制模型的能力,但外界常常将其视为公关策略。然而,“玻璃翼计划”的规模和实质性投入,第一次让人真切地感受到,顶尖的 AI 公司对于其模型可能引发的安全风险,抱有何等程度的警惕。
如果 Mythos 的能力真如官方数据所示,那么它的广泛发布无疑将彻底改变网络安全的攻防格局。AI 安全,已经从一个前瞻性的研究课题,变成了一个迫在眉睫、需要全球协同应对的现实挑战。
“玻璃翼计划”只是一个起点。Anthropic 强调,网络安全没有任何一家机构能够单独解决,这需要前沿 AI 公司、软件厂商、安全研究员、开源社区乃至各国政府的共同参与。
防御全球性的数字基础设施可能是一个持续数年的漫长工程,而 AI 的能力在未来几个月就可能再次发生跃迁。如果不想在 AI 时代变得脆弱不堪,那么行动必须从现在开始。

为何此刻发布?
回顾 Anthropic 近期的动态,一些看似异常的操作似乎也有了新的解释:Token 消耗飞快、Pro 用户体验波动、部分项目优先级调整…… 这一切可能都因为,团队正将大量资源和注意力押注在应对 AI 安全这一最高优先级的挑战上。
原因无他,那头名为“强大AI能力”的猛兽,已经隔着笼子发出了第一声低吼,出笼或许只是时间问题。
这次 Anthropic 对 Claude Mythos 的处理方式,为整个行业敲响了一记警钟。它表明,在追求模型性能突破的同时,对潜在风险的评估与管控必须同步,甚至需要走在前面。对于关注大模型发展的开发者和技术决策者而言,这无疑是一个值得深入思考的重要信号。更多关于 AI 前沿动态的深度讨论,欢迎在云栈社区的开发者广场板块交流。