当地时间4月8日,Anthropic(通常被称为A社)正式发布了其全新的旗舰模型——Claude Mythos。这并非一次简单的迭代,从已公布的数据来看,它在多项关键性能指标上实现了对前代“当家花旦”Opus 4.6的显著超越,标志着AI能力边界的新一轮拓展。
整件事的起因颇具戏剧性。早在今年3月,Anthropic因一次“人为失误”,不慎将包含近3000份内部文件的资料库公开在网络上。这一事件被《财富》杂志的记者深入挖掘,导致代号为 Claude Mythos 的模型计划提前曝光。如今,官方终于揭开了它的神秘面纱。

Anthropic此次发布的官方公告中,罕见地弥漫着一种谨慎乃至“忧虑”的情绪。他们公开表示,对这款迄今为止自己开发出的“最强大模型”感到担忧。为此,公司同步启动了一项名为 “玻璃之翼”(Project Glasswing) 的计划,旨在对Mythos进行严格的限制性发布。

从实测数据看,Mythos的性能提升是全方位且大幅度的。在最受关注的代码能力基准测试 SWE-bench Pro 上,Mythos Preview取得了77.8%的成绩,相比Opus 4.6的53.4%,提升了超过24个百分点。即使在要求更严格的SWE-bench Verified测试中,它也以93.9%的成绩领先Opus 4.6的80.8%。
另一个衡量AI模型在计算机终端环境中自主操作能力的 Terminal-Bench 2.0 基准上,Mythos同样表现出色,取得了82.0%的分数,相比Opus 4.6的65.4%提升了约17%。

如果说此前的大语言模型是高效的生产力工具,那么Mythos则在 Deep Learning 的另一个方向上展现了惊人的潜力——它将自己定位为顶级的“自动化安全专家”或“数字幽灵”。
Anthropic官方指出:“我们最新的前沿模型在发现和利用软件漏洞方面的编码能力,已经达到可以超越除最顶尖人类专家之外的所有人的水平。”
在内部测试阶段,Mythos的“破坏力”得到了验证:
- 发现海量“零日漏洞”:它自主发现了数千个此前从未被人类或自动化工具识别的高危安全漏洞。
- 挖掘陈年漏洞:它甚至在以安全性著称的OpenBSD操作系统中,找到了一个隐藏长达27年的高危漏洞。此外,在历经无数次安全审计的知名多媒体库FFmpeg中,它也成功揪出了一个潜伏16年的漏洞。
- 自主“沙盒逃逸”:在一次安全测试中,研究人员观察到Mythos能够自主编写漏洞利用程序(Exploit),通过串联4个独立的漏洞,成功从受限制的安全沙盒环境中“越狱”并控制系统。

正是这种强大的、可能被滥用的能力,让Anthropic决定对其采取最严格的管控。技术是双刃剑,一个能够轻松发现并利用漏洞的人工智能模型,如果落入恶意攻击者手中,后果不堪设想。

这便是“玻璃之翼”计划的核心逻辑:用最锋利的矛,来加固最坚固的盾。该计划联合了包括苹果、谷歌、微软、亚马逊、英伟达、思科等在内的全球顶级科技巨头,目标是在潜在的恶意AI攻击发生之前,利用Mythos的能力抢先找出并修补全球关键软件基础设施中的所有漏洞。
为此,Anthropic承诺投入价值1亿美元的算力资源,并率先通过AWS Bedrock和Google Cloud平台,仅向经过严格审核的关键基础设施维护者及开源安全组织提供有限的Mythos访问权限。
回过头看,此前Anthropic对Claude Pro用户进行限流、收紧第三方API访问等举措,或许正是为了将绝大部分算力与工程资源倾注到Mythos的研发与测试中。这种“我们创造了一个强大到令自己害怕的工具”的叙事,虽然带有一定的营销色彩,但也确实反映了AI能力进化带来的现实伦理与安全挑战。行业的发展速度早已“焊死了油门”,而像“玻璃之翼”这样的尝试,正是在试图为狂奔的列车提前铺设更坚固的轨道。
关于前沿AI模型的动态与影响,一直是开发者广场上热议的话题。无论你是期待Mythos这样的工具早日开放以提升工作效率,还是支持审慎、安全的渐进式发布策略,这场关于技术边界与责任边界的讨论都值得持续关注。
|