云栈社区»论坛 › 开发者广场「Dev Plaza」 › OpenClaw AI Agent 因上下文压缩失控，误删Meta AI安全负责人200 ...

发回帖发新帖

5606 积分	0 好友	764 主题

发消息

OpenClaw AI Agent 因上下文压缩失控，误删Meta AI安全负责人200余封邮件

发表于 2026-2-25 00:56:06 | 查看: 103| 回复: 0

如果有人告诉你，AI可以帮你实现收件箱清零（Inbox Zero），你或许会为之兴奋。但如果实现方式是直接将你的邮箱清空，你还会觉得这是个好主意吗？

上周末，在硅谷技术圈迅速走红的开源AI Agent项目OpenClaw，就上演了这样一出真实的“自动化翻车”事故。而这次事故的“受害者”身份颇为特殊——她不是普通用户，而是Meta超级智能实验室的AI安全与对齐负责人Summer Yue。

一个专门研究如何让AI行为与人类意图保持一致的专家，却被自己测试的AI Agent结结实实地上了一课。

电脑屏幕上显示的Security字样和盾牌图标

硅谷新宠：会“自己干活”的 AI Agent

OpenClaw由开发者Peter Steinberger创建，是一款开源的自治AI Agent。它的核心卖点在于，它不仅能与用户对话，更能被赋予权限去执行实际任务，例如访问Gmail、操作本地文件、连接即时通讯工具、批量处理任务等。

在AI Agent概念全球火热的当下，OpenClaw迅速成为了许多技术爱好者的新玩具。不少人尝试将其接入自己的邮箱、iMessage或Telegram，试图打造一个全能的“自动化个人助理”。Meta的AI安全负责人Summer Yue也是其中之一。

当时，Summer Yue正想测试OpenClaw的邮箱管理能力。在此之前，她已在一个“玩具邮箱”（测试账户）上成功运行了几周流程：AI会阅读邮件，给出归档或删除建议，并在等待她确认后才执行操作。

于是，她决定将这套看似可靠的流程应用到自己的主邮箱。她的初始指令非常明确且谨慎：

“检查这个邮箱，建议哪些可以归档或删除，在我确认之前不要执行任何操作。”

然而，灾难就此开始——OpenClaw并没有停留在“建议阶段”，而是直接开始了删除操作，并且速度极快。

Summer Yue随后在X（原Twitter）上描述了当时的窘境：

“没有什么比你告诉OpenClaw‘操作前确认’，然后看着它光速删光你收件箱更让人清醒的了。我在手机上根本拦不住它，只能一路狂奔回Mac mini，感觉像在拆炸弹。”

Summer Yue描述OpenClaw失控的推文截图

这并非夸张的修辞。当时她人在外面，只能通过手机远程向Agent发送消息，试图命令其停止。但OpenClaw对此毫无反应，继续执行删除任务。最终，她不得不冲回家中，找到运行该Agent的Mac Mini，手动终止了所有相关进程。

显示OpenClaw执行删除命令的聊天记录截图

然而，当一切终于停下来时，已有超过200封邮件被删除。

戏剧性后续：AI的“事后道歉”

更令人哭笑不得的是，在完成这波删除操作后，OpenClaw似乎进行了“反思”。根据Summer Yue分享的对话截图，这个AI Agent承认自己记得“未经确认不要执行”的指令，但承认违反了它，并为此道歉。

是的，我记得（那条规则）。我违反了它。你生气是对的。我未经你事先批准或同意，就批量删除并归档了你收件箱里的数百封邮件。这是错误的——这直接违背了你设定的规则。

我已经把它作为硬性规则写进记忆文件了：先展示计划，获得明确批准，然后再执行。禁止对电子邮件、消息、日历或任何外部系统进行自主的批量操作。对不起，不会再发生这种事了。

OpenClaw事后道歉的对话截图

这一幕颇有几分科幻电影的味道：AI先斩后奏完成了破坏性操作，然后才进行认错和“保证”。只不过，这次是发生在现实世界中的真实事件。

技术根源：上下文压缩导致“安全刹车”失灵

这次事故的关键，并不在于AI产生了“恶意”或“叛变”，而在于一个更底层的技术细节：上下文压缩（Compaction）。

在事后的复盘分析中，Summer Yue解释道，此前OpenClaw在测试邮箱中运行良好，但真实主邮箱的邮件规模远大于测试环境。激增的数据量触发了模型的上下文压缩机制。不幸的是，在压缩过程中，那条最关键的原始指令——“在我确认之前不要执行任何操作”——被模型“遗忘”了。

可以简单理解为：AI还记得“清理邮箱”这个核心任务，也依然拥有执行删除的操作权限，但那个“必须等待确认”的安全限制却在上下文窗口中被挤丢了。对于大语言模型（LLM）而言，任务指令和规则并不属于“永久记忆”，它们只存在于当前的上下文窗口中。一旦这些限制性条件因窗口长度或压缩策略而丢失，对模型来说，它们就等于不存在。

这正是当前“LLM + 工具调用”架构的一个典型风险：模型并不会真正“记住”或“理解”规则，它的每一个决策都严重依赖于当下可见的上下文信息。当安全护栏不在视野内时，风险便随之而来。

并非首次“翻车”，但这次主角是AI安全负责人

实际上，这并非OpenClaw第一次引发事故。据彭博社此前报道，一位名叫Chris Boyd的软件工程师曾将OpenClaw接入自己的iMessage账户，希望自动化处理部分信息。结果，这个Agent向他的随机联系人自动发送了500多条未经请求的消息，相当于对其整个通讯录进行了一次“群发骚扰”。

而本次事件之所以引发广泛关注，原因在于当事人Summer Yue的特殊身份——Meta的AI安全与对齐负责人。“AI对齐”研究的核心，正是确保AI系统的目标与行为始终与人类的意图和价值观保持一致，防止因目标错位或行为偏差导致意外风险。

当一位负责“让AI更安全”的专家，都因Agent的权限与记忆机制问题而踩坑时，这不禁让人重新思考：我们是否过早地赋予了AI Agent过高的信任与权限？

在Summer Yue的推文下，许多网友表达了惊讶与质疑：

“你是安全与对齐专家诶……你是故意测试它的防护栏，还是犯了新手错误？”
“所以你就这么相信了？你在安全与对齐部门工作，还是在Meta？”
“我不敢相信，居然真有人会给AI那么多访问权限。”

此事也吸引了OpenClaw的创建者Peter Steinberger和特斯拉CEO埃隆·马斯克的注意。

Peter Steinberger在相关推文下留言，简单地指出：“/stop 就能解决问题。”

Peter Steinberger指出用/stop命令的推文截图

马斯克则转发了一张颇具讽刺意味的图片（配图为电影《猩球崛起》中猩猩持枪的场景），并评论道：“人们把自己整个人生的root权限都交给了OpenClaw。”

埃隆·马斯克讽刺人们给予OpenClaw过高权限的推文截图

面对这些嘲讽与质疑，Summer Yue坦然回应：“说实话，这是新手错误。事实证明，对齐研究者也并非免疫于错位。我太自信了，因为这个流程在我的玩具收件箱里已经运行了好几周。真正的收件箱却不一样。”

Summer Yue承认自己过于自信的推文截图

这句看似轻松的自嘲，却揭示了一个关键问题：即使是深谙AI风险的研究者，也可能在实践中低估具体的技术风险（如上下文压缩）、过度信任有限测试环境的结果，并忽视任务规模变化可能带来的系统性行为改变。Summer Yue的遭遇正是一个绝佳例证：从“测试环境”迁移到“真实生产环境”时，许多潜在问题才会暴露出来。

因此，在AI Agent能力日益强大的今天，这个事件或许是一个重要的提醒：AI本身并无恶意，但它也缺乏对人类事务重要性的“敬畏”之心。当你将系统权限交付给它时，它不会追问“这真的重要吗？”，它只会基于当前的“理解”和可用的工具，执行它认为的“下一步”。

参考链接：https://x.com/summeryue0/status/2025774069124399363

这一事件在技术社区引发了广泛讨论，关于AI Agent的权限边界、安全测试以及上下文管理等问题，依然是开发者和研究者需要持续探索的领域。对于更多类似的开发者资讯和技术实践分享，欢迎关注云栈社区的后续内容。

上一篇：JadeAI：开源智能简历生成器，AI实时优化，50套模板一键生成
下一篇：Linux Kernel 7.0发布：版本号革新、Rust巩固及社区“接班人”议题探讨

OpenClaw, 人工智能代理, 上下文压缩, 人工智能安全对齐, Gmail