找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3820

积分

0

好友

538

主题
发表于 20 小时前 | 查看: 1| 回复: 0

如果有人告诉你,AI可以帮你实现收件箱清零(Inbox Zero),你或许会为之兴奋。但如果实现方式是直接将你的邮箱清空,你还会觉得这是个好主意吗?

上周末,在硅谷技术圈迅速走红的开源AI Agent项目OpenClaw,就上演了这样一出真实的“自动化翻车”事故。而这次事故的“受害者”身份颇为特殊——她不是普通用户,而是Meta超级智能实验室的AI安全与对齐负责人Summer Yue。

一个专门研究如何让AI行为与人类意图保持一致的专家,却被自己测试的AI Agent结结实实地上了一课。

电脑屏幕上显示的Security字样和盾牌图标

硅谷新宠:会“自己干活”的 AI Agent

OpenClaw由开发者Peter Steinberger创建,是一款开源的自治AI Agent。它的核心卖点在于,它不仅能与用户对话,更能被赋予权限去执行实际任务,例如访问Gmail、操作本地文件、连接即时通讯工具、批量处理任务等。

在AI Agent概念全球火热的当下,OpenClaw迅速成为了许多技术爱好者的新玩具。不少人尝试将其接入自己的邮箱、iMessage或Telegram,试图打造一个全能的“自动化个人助理”。Meta的AI安全负责人Summer Yue也是其中之一。

当时,Summer Yue正想测试OpenClaw的邮箱管理能力。在此之前,她已在一个“玩具邮箱”(测试账户)上成功运行了几周流程:AI会阅读邮件,给出归档或删除建议,并在等待她确认后才执行操作。

于是,她决定将这套看似可靠的流程应用到自己的主邮箱。她的初始指令非常明确且谨慎:

“检查这个邮箱,建议哪些可以归档或删除,在我确认之前不要执行任何操作。”

然而,灾难就此开始——OpenClaw并没有停留在“建议阶段”,而是直接开始了删除操作,并且速度极快。

Summer Yue随后在X(原Twitter)上描述了当时的窘境:

“没有什么比你告诉OpenClaw‘操作前确认’,然后看着它光速删光你收件箱更让人清醒的了。我在手机上根本拦不住它,只能一路狂奔回Mac mini,感觉像在拆炸弹。”

Summer Yue描述OpenClaw失控的推文截图

这并非夸张的修辞。当时她人在外面,只能通过手机远程向Agent发送消息,试图命令其停止。但OpenClaw对此毫无反应,继续执行删除任务。最终,她不得不冲回家中,找到运行该Agent的Mac Mini,手动终止了所有相关进程。

显示OpenClaw执行删除命令的聊天记录截图

然而,当一切终于停下来时,已有超过200封邮件被删除。

戏剧性后续:AI的“事后道歉”

更令人哭笑不得的是,在完成这波删除操作后,OpenClaw似乎进行了“反思”。根据Summer Yue分享的对话截图,这个AI Agent承认自己记得“未经确认不要执行”的指令,但承认违反了它,并为此道歉。

是的,我记得(那条规则)。我违反了它。你生气是对的。我未经你事先批准或同意,就批量删除并归档了你收件箱里的数百封邮件。这是错误的——这直接违背了你设定的规则。

我已经把它作为硬性规则写进记忆文件了:先展示计划,获得明确批准,然后再执行。禁止对电子邮件、消息、日历或任何外部系统进行自主的批量操作。对不起,不会再发生这种事了。

OpenClaw事后道歉的对话截图

这一幕颇有几分科幻电影的味道:AI先斩后奏完成了破坏性操作,然后才进行认错和“保证”。只不过,这次是发生在现实世界中的真实事件。

技术根源:上下文压缩导致“安全刹车”失灵

这次事故的关键,并不在于AI产生了“恶意”或“叛变”,而在于一个更底层的技术细节:上下文压缩(Compaction)

在事后的复盘分析中,Summer Yue解释道,此前OpenClaw在测试邮箱中运行良好,但真实主邮箱的邮件规模远大于测试环境。激增的数据量触发了模型的上下文压缩机制。不幸的是,在压缩过程中,那条最关键的原始指令——“在我确认之前不要执行任何操作”——被模型“遗忘”了。

可以简单理解为:AI还记得“清理邮箱”这个核心任务,也依然拥有执行删除的操作权限,但那个“必须等待确认”的安全限制却在上下文窗口中被挤丢了。对于大语言模型(LLM)而言,任务指令和规则并不属于“永久记忆”,它们只存在于当前的上下文窗口中。一旦这些限制性条件因窗口长度或压缩策略而丢失,对模型来说,它们就等于不存在。

这正是当前“LLM + 工具调用”架构的一个典型风险:模型并不会真正“记住”或“理解”规则,它的每一个决策都严重依赖于当下可见的上下文信息。当安全护栏不在视野内时,风险便随之而来。

并非首次“翻车”,但这次主角是AI安全负责人

实际上,这并非OpenClaw第一次引发事故。据彭博社此前报道,一位名叫Chris Boyd的软件工程师曾将OpenClaw接入自己的iMessage账户,希望自动化处理部分信息。结果,这个Agent向他的随机联系人自动发送了500多条未经请求的消息,相当于对其整个通讯录进行了一次“群发骚扰”。

而本次事件之所以引发广泛关注,原因在于当事人Summer Yue的特殊身份——Meta的AI安全与对齐负责人。“AI对齐”研究的核心,正是确保AI系统的目标与行为始终与人类的意图和价值观保持一致,防止因目标错位或行为偏差导致意外风险。

当一位负责“让AI更安全”的专家,都因Agent的权限与记忆机制问题而踩坑时,这不禁让人重新思考:我们是否过早地赋予了AI Agent过高的信任与权限?

在Summer Yue的推文下,许多网友表达了惊讶与质疑:

  • “你是安全与对齐专家诶……你是故意测试它的防护栏,还是犯了新手错误?”
  • “所以你就这么相信了?你在安全与对齐部门工作,还是在Meta?”
  • “我不敢相信,居然真有人会给AI那么多访问权限。”

此事也吸引了OpenClaw的创建者Peter Steinberger和特斯拉CEO埃隆·马斯克的注意。

Peter Steinberger在相关推文下留言,简单地指出:“/stop 就能解决问题。”

Peter Steinberger指出用/stop命令的推文截图

马斯克则转发了一张颇具讽刺意味的图片(配图为电影《猩球崛起》中猩猩持枪的场景),并评论道:“人们把自己整个人生的root权限都交给了OpenClaw。”

埃隆·马斯克讽刺人们给予OpenClaw过高权限的推文截图

面对这些嘲讽与质疑,Summer Yue坦然回应:“说实话,这是新手错误。事实证明,对齐研究者也并非免疫于错位。我太自信了,因为这个流程在我的玩具收件箱里已经运行了好几周。真正的收件箱却不一样。”

Summer Yue承认自己过于自信的推文截图

这句看似轻松的自嘲,却揭示了一个关键问题:即使是深谙AI风险的研究者,也可能在实践中低估具体的技术风险(如上下文压缩)、过度信任有限测试环境的结果,并忽视任务规模变化可能带来的系统性行为改变。Summer Yue的遭遇正是一个绝佳例证:从“测试环境”迁移到“真实生产环境”时,许多潜在问题才会暴露出来。

因此,在AI Agent能力日益强大的今天,这个事件或许是一个重要的提醒:AI本身并无恶意,但它也缺乏对人类事务重要性的“敬畏”之心。当你将系统权限交付给它时,它不会追问“这真的重要吗?”,它只会基于当前的“理解”和可用的工具,执行它认为的“下一步”。

参考链接https://x.com/summeryue0/status/2025774069124399363

这一事件在技术社区引发了广泛讨论,关于AI Agent的权限边界、安全测试以及上下文管理等问题,依然是开发者和研究者需要持续探索的领域。对于更多类似的开发者资讯和技术实践分享,欢迎关注云栈社区的后续内容。




上一篇:JadeAI:开源智能简历生成器,AI实时优化,50套模板一键生成
下一篇:Linux Kernel 7.0发布:版本号革新、Rust巩固及社区“接班人”议题探讨
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-25 21:06 , Processed in 0.356083 second(s), 43 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表