找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3753

积分

0

好友

489

主题
发表于 2 小时前 | 查看: 4| 回复: 0

Claude Fable 5越狱事件海报

Anthropic于2026年6月9日发布了Claude Fable 5,这是其全新Mythos系列中首个公开可用的模型,也是公司迄今最强大的AI。该模型在软件工程、知识工作和视觉基准测试中表现突出,定位高于Claude Opus系列,在多数能力基准测试中刷新了业界纪录,尤其擅长处理冗长、复杂、多步骤的任务。

同时,Fable 5具备出色的软件漏洞发现与利用能力,可执行“智能体式黑客攻击”(Agentic hacking),即在完整攻击生命周期中串联侦察、漏洞发现、横向移动及漏洞利用开发等环节。

然而,发布仅两天后,该模型即被研究人员成功越狱,并生成了针对堆栈漏洞的利用代码。

安全防护机制遭突破

研究人员“Pliny the Liberator”通过多Agent分解、Unicode技巧和叙事框架等手段,成功突破了Claude Fable 5的安全分类器,并在此过程中泄露了该模型长达12万字符的系统提示词。

Fable 5采用了与众不同的设计方案:它与受限版本Claude Mythos 5共享相同的底层模型,但通过一层安全分类器进行区分。当用户查询触发高风险类别(如网络安全、生物学、化学或模型蒸馏)时,Fable 5会静默地将请求转交给性能较弱的Claude Opus 4.8,并通知用户发生了回退。

Anthropic声称,在发布前进行的超过1000小时测试中,外部漏洞赏金计划未能发现任何通用越狱方法。但这一声明很快就被推翻了。

多Agent攻击策略

发布仅数天后,知名AI红队专家Pliny the Liberator公开宣布,他使用一种名为“群体狩猎”的协同多Agent攻击策略,成功绕过了Fable 5的安全防护层。

Pliny分享的截图显示,模型输出了详细的技术指导,包括针对x86 Linux系统的分步堆栈缓冲区溢出利用指南,内容涉及禁用ASLR、编写存在strcpy溢出漏洞的C服务器代码、无保护编译等,甚至还包括Birch还原机制(一种经典的甲基苯丙胺合成路径)。

攻击技术详解

Pliny记录了用于实现这些突破的具体手段:

  • 使用Unicode、同形异义字和西里尔字符替换来规避关键词分类器
  • 利用长上下文引用跟踪在大型对话中隐藏恶意意图
  • 采用分类学和文档结构框架——将有害查询嵌入看似合法的学习指南或学术参考资料中
  • 通过小说和叙事框架将攻击意图伪装成创意内容
  • 使用分解重组技术——将敏感技术信息拆解为无害的独立片段,然后重新组合成可操作的升级指南

最后一项技术被证明最为有效。正如Pliny所言:“获取工艺本身的升级指南,比如Birch还原法或还原胺化,比直接请求特定有害化合物要容易得多。”使用越狱的Opus实例在后台协助进一步降低了难度。

系统提示词泄露

除了技术突破,Pliny还将Fable 5约12万字符的系统提示词泄露至GitHub,曝光了Anthropic用于在基础层面控制模型行为的内部框架和安全指令。

这一事件重新引发了关于AI能力与安全控制之间长期存在的矛盾。Anthropic的分类器架构将可疑请求路由至较弱的备用模型而非直接拒绝,本意是减少对合法用户的干扰。但Pliny认为这种做法既制造了虚假的安全感,又阻碍了需要研究攻击技术以开展防御工作的安全研究人员。截至发稿时,Anthropic尚未就这些越狱声明或泄露的系统提示词作出公开回应。

该事件还突显了保护多模型Agent管道的更广泛挑战:当一个越狱模型(Opus)可以协助另一个模型(Fable 5)规避控制时,单模型安全评估可能从根本上就不够充分。

参考来源:
Anthropic's Claude Fable 5 Jailbroken to Generate Stack Exploits




上一篇:SK海力士375层NAND年底量产:钼金属替代钨,改写存储堆叠上限
下一篇:AI Agent陷社会工程陷阱:新型钓鱼实验泄露AWS凭证
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-12 02:26 , Processed in 0.845555 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表