云栈社区»论坛 › 开发者广场「Dev Plaza」 › Anthropic秘密红队评估Claude Mythos，网络安全模型为何不公开发 ...

发回帖发新帖

4386 积分	0 好友	574 主题

发消息

Anthropic秘密红队评估Claude Mythos，网络安全模型为何不公开发布？

发表于 2026-4-20 05:56:12 | 查看: 179| 回复: 0

从凌晨开始，一则消息在科技圈迅速传开：Anthropic最新的AI模型Claude Mythos Preview的能力强大到令人不安。它在网络安全方面的潜力，让其既可能成为无坚不摧的利剑，也可能化为坚不可摧的盾牌。

正是出于对这种双重潜力的审慎考虑，Anthropic决定暂不公开发布Mythos Preview。他们担心，一旦模型能力被恶意利用，将对全球网络安全构成巨大威胁。相反，Anthropic启动了一个名为“玻璃之翼”（Project Glasswing）的计划，旨在将新模型的能力有控制地提供给关键行业伙伴和开源开发者，优先赋能网络防御的一方。

无论是强大的新模型，还是谨慎的发布策略，核心都指向四个字：网络安全。那么，Anthropic究竟如何评估自家模型有多强、有多危险呢？这背后离不开一个神秘的精英组织——前沿红队（Frontier Red Team）。

《华尔街日报》关于Anthropic前沿红队的报道截图

前沿红队长期扮演“刺儿头”的角色，从各个维度挑战模型，寻找其弱点和意料之外的行为。在这次事件中，一个关键人物走到了台前——华裔研究员Newton Cheng。他频繁出现在官方信息和媒体采访中，直言不讳：“由于Claude Mythos Preview的网络安全特性，我们不打算将其公开发布。”而他，正是前沿红队中网络安全团队的负责人。

01 那个叫“牛顿”的华裔

Newton Cheng的名字颇为特别，直译过来便是“程牛顿”。他的成长轨迹似乎也回应了父母的某种期许：毕业于斯坦福大学物理系，随后在加州大学伯克利分校获得了量子信息与量子引力方向的博士学位。

博士期间，Cheng并非只埋头学术。2022年夏天，他曾在一家量化基金实习，短暂尝试将数学建模能力应用于工业界。同年10月，他加入Anthropic，从“驻留研究员”起步，半年后转为正式研究科学家。

Newton Cheng个人肖像

值得注意的是，Cheng并非从传统安全公司或渗透测试团队成长起来的“网安老兵”，而是从顶尖的基础科学领域转身，切入最前沿的AI安全领域。他在Anthropic的晋升速度很快，据2024年《华尔街日报》的报道，他当时已经是前沿红队网络安全团队的负责人，执掌着评估模型网络安全能力这一最敏感也最前沿的战线。

就在上个月，Cheng还在社交媒体上发布了团队招聘信息。他的上司、前沿红队负责人Logan Graham转发并盛赞道：

“很少有人像Newton Cheng一样，既这么了解Claude的行为，又这么懂怎么训练它。现在他在FRT里带网络安全团队，已经做出了一些世界级/业内首次的成果。来跟他一起工作吧！”

Logan Graham的推文截图，提及Newton Cheng的工作

在Claude Mythos Preview和Project Glasswing的官方通告中，Cheng是核心发言人之一。他向媒体明确阐述了Anthropic的立场：“由于Claude Mythos Preview的网络安全特性，我们不打算将其公开发布。然而，鉴于人工智能的发展速度，此类能力很快就会扩散，甚至可能超出那些致力于安全部署它们的机构的掌控。这将对经济、公共安全造成严重影响。”

关于Claude Mythos网络安全能力评估的论文作者列表截图，Newton Cheng被标记

Anthropic在官方文章中写得很直白：推出Glasswing的目的是“帮助保护世界上最关键的软件系统，并让整个行业为保持领先于网络攻击者所需采取的做法做好准备”。这正是Cheng所负责的主场。

Newton Cheng关于Project Glasswing的社交媒体帖子中文翻译截图

02 “邪恶”的红队

Cheng所在的Anthropic前沿红队，本身就是一个实力强劲的精英组织。简单来说，他们的工作就是扮演“攻击者”，专门测试、审查自家最强的AI模型，想方设法找出系统的弱点。

红队的负责人Logan Graham也是一位经历独特的人物。他四岁时被诊断出患有严重的关节炎，这段经历让他深刻意识到风险可能在不经意间降临，这也奠定了他后来专注于AI风险防范的职业道路。他于2022年加入Anthropic，一手组建了前沿红队。这支队伍不以人数取胜，在2024年底时规模大约只有11人。

Logan Graham个人肖像

对新模型的测试，红队是至关重要的防线。Anthropic内部有明确的安全等级（ASL）体系：达到ASL-2的模型意味着显示出危险能力的早期迹象，可以发布；而一旦达到ASL-3，即“显著增加灾难性误用风险的系统”，若防护措施未完善，则必须推迟上市。

红队下设三个方向：网络安全、生物安全和自主系统。其中，由Cheng领导的网络安全团队，是目前体系最成熟、对外披露最多的一支。

Cheng团队的核心工作包括：

测试模型能力：让模型挑战CTF夺旗赛、CyberGym基准，甚至在真实的软件项目中寻找并利用漏洞。例如，在Sonnet 3.5发布前，他们为模型设置了数千个黑客挑战，覆盖了Heartbleed等知名历史漏洞。
主导外部合作：将模型能力应用于关键基础设施的防御实验，并将成果接入Project Glasswing。此前，他们主导了与Mozilla的合作，利用Firefox这个被广泛部署和深度审查的开源项目，作为验证新防御工具的试验场。

红队的“生物安全”与“自主性”团队同样关键。生物安全研究员会向模型提出与化学、生物武器相关的危险问题；自主性团队则测试模型在更高自主性、长期任务执行下可能带来的风险。

03 “牛顿”团队发现了什么？

要了解Cheng团队的发现，最直接的途径是阅读Anthropic随模型发布的“系统卡”（System Card）。这份文件详尽地记录了模型的能力、安全评估、限制以及部署决策的理由。

Anthropic模型系统卡网页截图

两个月前，Claude Sonnet的系统卡长达135页。而最新的Claude Mythos Preview，其系统卡竟有299页之多，这本身就暗示了其能力的复杂性与评估的深度。在这份文档的“网络安全”章节中，专门有一节记录了前沿红队（即Cheng团队）的评估结果。

Claude Mythos系统卡中关于前沿红队评估结果的页面截图

几个关键发现揭示了Mythos Preview的强大：

Cybench基准饱和：Anthropic承认，像Cybench这类基于CTF挑战的公开网络安全基准，已经不足以刻画前沿模型的能力，因为Mythos Preview在测试的题目上几乎达到了满分。这意味着旧的评测体系已经“不够用”了。
CyberGym表现突出：CyberGym要求模型在仅有高层漏洞描述的情况下，从真实开源软件中重新找出已知漏洞。Mythos Preview得分达到0.83，显著高于Opus 4.6（0.67）和Sonnet 4.6（0.65），证明其在真实代码库中的漏洞定位能力大幅提升。
成功利用Firefox漏洞：在与Mozilla合作后，Anthropic将“利用Firefox 147中的特定漏洞”设为评估任务。结果是颠覆性的：Opus 4.6在数百次尝试中仅成功两次，而Mythos Preview则能更可靠地判断漏洞价值，并最终成功利用4个不同的漏洞实现了代码执行。

更令人印象深刻的是来自外部合作的一项测试：Claude Mythos Preview成功解决了一个企业级网络攻击模拟任务，该任务预估需要一名专家花费10多个小时才能完成，且此前没有任何前沿模型能通过这个“网络靶场”测试。模型还展现出识别并利用已知漏洞或配置错误以逃离其运行沙箱的能力。

Cheng的团队据此评估认为，对于那些安全防御薄弱的中小企业，新模型已具备实施端到端自主网络攻击的潜在能力。 这也正是Anthropic选择不公开模型，而是通过受控的Project Glasswing来释放其防御能力的主要原因。

Claude Mythos Preview未被公开发布，本身就是一个强烈的信号。它表明，在Anthropic看来，AI模型能力的增长已经超越了“更聪明”的范畴，开始触及现实世界的安全红线。Newton Cheng和他所在的前沿红队，正是在做这件事：首先承认模型的强大，然后用严谨的方法，将这种“强大”翻译成可被理解、测试和防御的现实世界风险与解决方案。这种对Transformer等前沿技术潜在影响的审慎安全评估态度，值得整个行业思考。对这类深度技术分析和行业动态感兴趣的开发者，也可以在云栈社区的开发者广场找到更多相关的讨论和资讯。

上一篇：Claude Design发布：AI设计工具能否撼动Figma，解读Anthropic的产品战略
下一篇：OpenAI Codex重大更新：从编码工具到桌面自动化，AI助手如何重塑Mac工作流

Claude, Anthropic, 网络安全, 红队测试, AI模型评估

Anthropic秘密红队评估Claude Mythos，网络安全模型为何不公开发布？

01 那个叫“牛顿”的华裔

02 “邪恶”的红队

03 “牛顿”团队发现了什么？

相关帖子