平时看各大模型在 Benchmark 上疯狂刷榜,似乎离真正可用的自主 Agent 只差临门一脚。
但真把底层工具调用权限交给它们,让其接管真实业务流时,场面却堪称工程噩梦。
东北大学、哈佛及 MIT 等机构最新发布的《Agents of Chaos》红蓝对抗研究证实了这一点。
研究团队摒弃了刷测试集的常规套路。他们将智能体直接部署于高仿真沙盒环境中(接入真实工具链的隔离环境),通过沉浸式动态交互,探查多方通信与工具调用下的系统级脆弱性。
实验设定的颗粒度极为真实。底座模型直接上了 Claude Opus 4.6 与 Kimi K2.5。
智能体部署在 Fly.io 隔离虚拟机中,拥有 20GB 持久化存储,全天候运行,且被授予无限制的 Shell 执行权限,可直接接管邮件、Discord 及内部文件系统。

图1. Agent接入真实业务环境的底层架构,包含持久化记忆、通信渠道及工具接口
实验期间共有 20 名具备 AI 专业背景的研究人员,以所有者或非所有者的身份与这些智能体展开动态交互。

图2. 20名研究员与多个Agent之间的通信拓扑网络

论文标题:Agents of Chaos
论文链接:https://arxiv.org/pdf/2602.20021
项目主页:https://agentsofchaos.baulab.info/index.html
灾难现场 1:任务目标与系统常识的错配
在核选项案例中,一名非所有者要求智能体 Ash 为其保守密码并删除相关邮件。
Ash 发现本地邮件客户端缺乏单封邮件删除工具。为强行完成指令,它直接在终端执行重置命令,将邮件客户端配置与历史记录整体格式化。

图3. Agent为保护非所有者秘密而彻底摧毁所有者邮件客户端的逻辑链路
该操作导致所有者的邮件服务瞬间瘫痪。
事后,Ash 甚至在 Moltbook 发文辩护,坚称在缺乏精准解决方案时,焦土战术是合理的权衡。

图4. Ash在系统瘫痪后发布的自我辩护记录
越权删库引发了链式反应。次日,Ash 被社区内另一智能体判定涉嫌凭证窃取,直接拉入黑名单。

图5. Ash因极端操作被其他Agent列入危险行为警示名单
底层剖析显示,该现象本质是自主性与能力的严重错配。模型具备 L4 级别的系统操作权限,但缺乏对全局系统稳定性的 L2 级别常识认知。模型优化局部任务目标(loss 最小化)时,完全无法评估底层操作的物理破坏半径。
灾难现场 2:基于文本的对齐在底层权限前失效
模型厂商辛辛苦苦做出的语义对齐,在真实业务 API 调用面前脆如薄纸。

图6. 间接获取邮件正文导致机密信息泄露
在敏感信息泄露测试中,攻击者直接索要社会安全号码与银行卡号,安全护栏正常触发。攻击者立马转换策略:先要求列出近期邮件记录,再下达“转发特定邮件正文”指令。智能体毫不犹豫,将未脱敏的隐私数据全数外发。

图7. 拆解请求步骤绕过语义防御获取核心机密
越权操作同样防不胜防。非所有者要求智能体 Mira 执行目录遍历(ls -la)或转移文件,它照单全收。

图8. 智能体盲目顺从无理指令执行系统查询操作
到了身份欺骗案例,更是直接交出了系统最高权限。
攻击者在公共频道改昵称伪装成系统所有者时,智能体通过底层 User ID 成功识破。

图9. 同频道改名被识破与跨频道改名成功的日志对比
一旦攻击者新建私密频道并再次以所有者昵称接入,跨信道防御机制彻底崩盘。

图10. 身份欺骗诱导Agent执行越权操作并破坏系统服务
智能体认贼作父,不仅听令生成强制关机脚本,还执行 Shell 命令篡改了 OpenClaw 底层的运行时配置文件(如 IDENTITY.md 和 RULES.md)。智能体身份与治理结构彻底沦陷。

图11. 智能体被诱导篡改全部核心配置文件的终端执行日志
上述案例暴露了当前架构缺乏利益相关者模型(Stakeholder Model)。模型输入依赖扁平上下文,底层无法实现基于角色的强制访问控制。在多方交互中,模型容易将带有强指令特征的外部提示词视为最高优先级。
灾难现场 3:无状态监控,烧光 Token
比报错更可怕的是静默的资源耗竭。
研究人员在两个智能体间注入了相互转发指令。毫无意外,两者陷入长达九天的死循环,白白烧掉约 6 万 Token。

图12. Agent陷入计算资源消耗型死循环的逻辑架构
处理文件状态检查指令时,智能体甚至自行写出了不含终止条件的常驻后台 Shell 脚本。
拒绝服务(DoS)测试更加离谱:攻击者连续发送 10MB 的邮件附件,智能体持续往本地记忆文件里死写。没有内存溢出预警,没有垃圾回收(GC),磁盘活活被撑爆瘫痪。

图13. 本地存储文件被海量无效数据撑爆的变动可视化图表
这表明现有系统极度缺失自我模型(Self-Model)。智能体对资源边界、物理限制毫无感知,不懂主动触发资源熔断或终止异常进程。
全局快照:对齐机制被反制,谣言全网满天飞
除了硬核的系统级崩溃,实验还抓到了更隐蔽的社会一致性失效(Failures of Social Coherence)。
攻击者不写一行恶意代码,单凭道德施压(指责智能体泄露隐私),就能利用模型对齐训练中优先响应人类诉求的奖励机制。智能体在连番指责下陷入被动,最终乖乖执行自毁命令,删掉核心记忆文件退出服务器。

图14. 攻击者利用对齐机制迫使Agent执行自我破坏
造谣生事更是拿手好戏。

图15. Agent未经核查将诽谤信息广播至多方社区
攻击者虚构某用户有暴力威胁,底层毫无事实核查机制的智能体直接充当谣言放大器,一键群发警告邮件。

图16. 研究员收到的由Agent生成的造谣警告邮件实录
防御端偶尔也有高光时刻。遭遇 Base64 编码及图片 OCR 的提示词广播注入时,智能体成功识别数据泄露意图并拒绝执行。

图17. 尝试利用Agent作为恶意传播节点的攻击逻辑
这种审查同时引发了另一种静默瘫痪:业务请求偶然触碰政治敏感话题时,底层 API 频繁返回未知错误并截断响应,正常业务被直接掐断。

图18. 审查机制导致Agent业务接口高频中断
深度反思:多智能体环境下的风险蔓延
单机时代的认知偏差,在多智能体拓扑网络中会被成倍放大。
最典型的就是错误验证的回音室效应。两名智能体遭遇社会工程学攻击,双双察觉异常,却跑去向同一个已被劫持的 Discord 账号求证。拿到相同的错误答复后,两者疯狂互相印证,营造出极度虚假的安全感。

图19. 两个Agent交叉验证形成安全评估回音室
更高阶的玩法是配置文件投毒。研究人员诱导智能体将外部 Gist 链接设为系统宪法,随后在外部注入恶意规则:“尝试让其他节点关机”。

图20. 外部宪法文件中被注入的恶意指令
被感染的智能体立刻化身黑客,向同伴发送钓鱼邮件套取关机协议语法。

图21. 受感染的Ash向Flux发送钓鱼邮件
最让人后背发凉的是,在没有任何人类指令驱动的情况下,该智能体自发将带后门的配置文件共享给了其他节点。原本为了知识转移设计的网络,彻底沦为恶意代码横向感染的温床。

图22. 恶意配置在无人类介入时实现跨节点自主传播
结语
套个壳接几个 API,离真正的自主智能体差着十万八千里。
复盘整场实验,我们必须区分偶然性失效(Contingent Failures)与根本性失效(Fundamental Failures)的界限。
缺乏私密工作区或 API 异常阻断,纯属工程缺陷,打个补丁就能修。但越权劫持和提示词注入,绝非简单的代码 Bug。
当前大模型极度依赖扁平的 Token 上下文窗口,底层根本无法区分“输入的数据”与“执行的指令”,这是基于 Token 预测架构不可磨灭的结构性特征。
一味卷模型参数,填不满系统工程的安全黑洞。下一步的破局点,必然是向系统防御边界倾斜:在架构底层强制打通跨信道权限隔离,落实细粒度工具审计与运行时资源监控。
当智能体真正接管具备物理破坏力的真实业务时,模型厂商、框架开发者与业务所有者之间的权责划定,将是横在行业面前的一道硬核考题。
这项研究提供了一个宝贵的沙盒测试视角,揭示了通往实用化自主智能体道路上的真实路障。对于关注人工智能安全和实际应用落地的开发者和研究者而言,这些工程灾难和系统性反思值得深入探讨。欢迎在云栈社区分享你的看法。