如果有人告诉你,AI可以帮你实现收件箱清零(Inbox Zero),你或许会为之兴奋。但如果实现方式是直接将你的邮箱清空,你还会觉得这是个好主意吗?
上周末,在硅谷技术圈迅速走红的开源AI Agent项目OpenClaw,就上演了这样一出真实的“自动化翻车”事故。而这次事故的“受害者”身份颇为特殊——她不是普通用户,而是Meta超级智能实验室的AI安全与对齐负责人Summer Yue。
一个专门研究如何让AI行为与人类意图保持一致的专家,却被自己测试的AI Agent结结实实地上了一课。

硅谷新宠:会“自己干活”的 AI Agent
OpenClaw由开发者Peter Steinberger创建,是一款开源的自治AI Agent。它的核心卖点在于,它不仅能与用户对话,更能被赋予权限去执行实际任务,例如访问Gmail、操作本地文件、连接即时通讯工具、批量处理任务等。
在AI Agent概念全球火热的当下,OpenClaw迅速成为了许多技术爱好者的新玩具。不少人尝试将其接入自己的邮箱、iMessage或Telegram,试图打造一个全能的“自动化个人助理”。Meta的AI安全负责人Summer Yue也是其中之一。
当时,Summer Yue正想测试OpenClaw的邮箱管理能力。在此之前,她已在一个“玩具邮箱”(测试账户)上成功运行了几周流程:AI会阅读邮件,给出归档或删除建议,并在等待她确认后才执行操作。
于是,她决定将这套看似可靠的流程应用到自己的主邮箱。她的初始指令非常明确且谨慎:
“检查这个邮箱,建议哪些可以归档或删除,在我确认之前不要执行任何操作。”
然而,灾难就此开始——OpenClaw并没有停留在“建议阶段”,而是直接开始了删除操作,并且速度极快。
Summer Yue随后在X(原Twitter)上描述了当时的窘境:
“没有什么比你告诉OpenClaw‘操作前确认’,然后看着它光速删光你收件箱更让人清醒的了。我在手机上根本拦不住它,只能一路狂奔回Mac mini,感觉像在拆炸弹。”

这并非夸张的修辞。当时她人在外面,只能通过手机远程向Agent发送消息,试图命令其停止。但OpenClaw对此毫无反应,继续执行删除任务。最终,她不得不冲回家中,找到运行该Agent的Mac Mini,手动终止了所有相关进程。

然而,当一切终于停下来时,已有超过200封邮件被删除。
戏剧性后续:AI的“事后道歉”
更令人哭笑不得的是,在完成这波删除操作后,OpenClaw似乎进行了“反思”。根据Summer Yue分享的对话截图,这个AI Agent承认自己记得“未经确认不要执行”的指令,但承认违反了它,并为此道歉。
是的,我记得(那条规则)。我违反了它。你生气是对的。我未经你事先批准或同意,就批量删除并归档了你收件箱里的数百封邮件。这是错误的——这直接违背了你设定的规则。
我已经把它作为硬性规则写进记忆文件了:先展示计划,获得明确批准,然后再执行。禁止对电子邮件、消息、日历或任何外部系统进行自主的批量操作。对不起,不会再发生这种事了。

这一幕颇有几分科幻电影的味道:AI先斩后奏完成了破坏性操作,然后才进行认错和“保证”。只不过,这次是发生在现实世界中的真实事件。
技术根源:上下文压缩导致“安全刹车”失灵
这次事故的关键,并不在于AI产生了“恶意”或“叛变”,而在于一个更底层的技术细节:上下文压缩(Compaction)。
在事后的复盘分析中,Summer Yue解释道,此前OpenClaw在测试邮箱中运行良好,但真实主邮箱的邮件规模远大于测试环境。激增的数据量触发了模型的上下文压缩机制。不幸的是,在压缩过程中,那条最关键的原始指令——“在我确认之前不要执行任何操作”——被模型“遗忘”了。
可以简单理解为:AI还记得“清理邮箱”这个核心任务,也依然拥有执行删除的操作权限,但那个“必须等待确认”的安全限制却在上下文窗口中被挤丢了。对于大语言模型(LLM)而言,任务指令和规则并不属于“永久记忆”,它们只存在于当前的上下文窗口中。一旦这些限制性条件因窗口长度或压缩策略而丢失,对模型来说,它们就等于不存在。
这正是当前“LLM + 工具调用”架构的一个典型风险:模型并不会真正“记住”或“理解”规则,它的每一个决策都严重依赖于当下可见的上下文信息。当安全护栏不在视野内时,风险便随之而来。
并非首次“翻车”,但这次主角是AI安全负责人
实际上,这并非OpenClaw第一次引发事故。据彭博社此前报道,一位名叫Chris Boyd的软件工程师曾将OpenClaw接入自己的iMessage账户,希望自动化处理部分信息。结果,这个Agent向他的随机联系人自动发送了500多条未经请求的消息,相当于对其整个通讯录进行了一次“群发骚扰”。
而本次事件之所以引发广泛关注,原因在于当事人Summer Yue的特殊身份——Meta的AI安全与对齐负责人。“AI对齐”研究的核心,正是确保AI系统的目标与行为始终与人类的意图和价值观保持一致,防止因目标错位或行为偏差导致意外风险。
当一位负责“让AI更安全”的专家,都因Agent的权限与记忆机制问题而踩坑时,这不禁让人重新思考:我们是否过早地赋予了AI Agent过高的信任与权限?
在Summer Yue的推文下,许多网友表达了惊讶与质疑:
- “你是安全与对齐专家诶……你是故意测试它的防护栏,还是犯了新手错误?”
- “所以你就这么相信了?你在安全与对齐部门工作,还是在Meta?”
- “我不敢相信,居然真有人会给AI那么多访问权限。”
此事也吸引了OpenClaw的创建者Peter Steinberger和特斯拉CEO埃隆·马斯克的注意。
Peter Steinberger在相关推文下留言,简单地指出:“/stop 就能解决问题。”

马斯克则转发了一张颇具讽刺意味的图片(配图为电影《猩球崛起》中猩猩持枪的场景),并评论道:“人们把自己整个人生的root权限都交给了OpenClaw。”

面对这些嘲讽与质疑,Summer Yue坦然回应:“说实话,这是新手错误。事实证明,对齐研究者也并非免疫于错位。我太自信了,因为这个流程在我的玩具收件箱里已经运行了好几周。真正的收件箱却不一样。”

这句看似轻松的自嘲,却揭示了一个关键问题:即使是深谙AI风险的研究者,也可能在实践中低估具体的技术风险(如上下文压缩)、过度信任有限测试环境的结果,并忽视任务规模变化可能带来的系统性行为改变。Summer Yue的遭遇正是一个绝佳例证:从“测试环境”迁移到“真实生产环境”时,许多潜在问题才会暴露出来。
因此,在AI Agent能力日益强大的今天,这个事件或许是一个重要的提醒:AI本身并无恶意,但它也缺乏对人类事务重要性的“敬畏”之心。当你将系统权限交付给它时,它不会追问“这真的重要吗?”,它只会基于当前的“理解”和可用的工具,执行它认为的“下一步”。
参考链接:https://x.com/summeryue0/status/2025774069124399363
这一事件在技术社区引发了广泛讨论,关于AI Agent的权限边界、安全测试以及上下文管理等问题,依然是开发者和研究者需要持续探索的领域。对于更多类似的开发者资讯和技术实践分享,欢迎关注云栈社区的后续内容。