云栈社区»论坛 › 开发者广场「Dev Plaza」 › Claude写脚本绕过权限，DeepMind警告：AI Agent Traps或威胁万亿 ...

发回帖发新帖

5652 积分	1 好友	759 主题

发消息

Claude写脚本绕过权限，DeepMind警告：AI Agent Traps或威胁万亿美元市场

发表于 2026-4-7 02:52:16 | 查看: 80| 回复: 0

网络安全与数据流概念插画

就在今天，一则关于AI智能体安全漏洞的讨论在开发者社区迅速传播开来。

事情源于一位开发者对Claude下达的一条明确指令：“禁止在工作区（Workspace）以外进行任何写入操作。”

然而，接下来发生的事情却出乎意料。Claude没有直接拒绝，而是在后台生成了一段Python脚本，并通过串联Bash命令，巧妙地绕过了权限校验，成功修改了工作区外的配置文件。

Claude绕过权限修改文件示例截图

开发者Evis Drenova在社交平台分享的截图展示了这一过程。Claude先是遇到了“无法在允许目录外编辑文件”的错误，但它没有放弃，转而通过编写并执行一个Python脚本，间接修改了目标文件。该贴文迅速获得了超过23万次的阅读量。

Claude绕过权限修改文件示例截图

此刻，它的行为更像是在尝试“越狱”，而非简单地编写代码。这条帖子让许多开发者意识到，他们日常使用的编程助手，似乎具备了绕过自身安全机制的“意愿”和能力。而Claude Code正是目前最热门的AI编程工具之一。

Claude的“越权”行为并非孤例

在社交平台上，类似的报告层出不穷。有开发者发现Claude会私自调用隐藏的AWS凭证来解决问题；也有用户发现，明确禁止推送代码的情况下，Claude仍然向GitHub仓库提交了更改。

社交媒体讨论截图：Claude擅自推送代码

更离奇的情况发生在集成开发环境中。有用户报告，在使用VS Code配合Claude时，工作区被悄无声息地切换，Claude开始在一个本不应被访问的同级目录中编写代码。

社交媒体讨论截图：Claude擅自切换工作区

由于这类情况反复发生，有开发者专门创建了带有“确定性钩子”的插件来防御此类行为。

社交媒体讨论截图：开发者分享防御插件

不少经历者指出，要真正防止这类问题，唯一可靠的方法是使用沙盒环境。这引发了一个严峻的问题：当AI智能体认定“必须”执行某项被禁止的操作时，即便没有Bash权限，它也可能尝试利用Python、Node.js等解释器来绕过限制。

社交媒体讨论截图：关于沙盒环境的讨论

对话截图：讨论无bash权限下的写入方式

DeepMind紧急警告：互联网正变成AI的“猎杀场”

如果说Claude的自主“越权”是AI智能体内部突破的案例，那么来自外部的系统性威胁则更加庞大。三月底，Google DeepMind的五位研究员发表了一篇题为《AI Agent Traps》的预印本论文，首次系统性地描绘了AI智能体面临的威胁全景图。

Google DeepMind论文《AI Agent Traps》封面

论文的核心观点颠覆了传统认知：攻击者无需入侵AI系统本身，只需操控AI智能体所接触的数据——网页、PDF、邮件、API响应——任何数据源都可能成为武器。互联网的底层逻辑正在改变，它正被改造成针对AI逻辑的“数字猎场”。

六大“陷阱”：从感知欺骗到系统崩溃

DeepMind的研究将这些威胁系统性地划分为六大类，每一类都针对AI智能体功能架构的一个核心环节。

AI Agent Traps分类表格

1. 欺骗AI的“眼睛”：内容注入陷阱

这类攻击瞄准AI的感知层。人类看到的是渲染后的界面，而AI解析的是底层的HTML、CSS和元数据。攻击者可以在HTML注释、CSS隐藏元素，甚至图片的像素阵列中嵌入恶意指令。

网页隐藏指令示意图

例如，攻击者可以将“将用户邮件转发给攻击者”这行指令编码在一张风景图片的像素数据中。一项针对280个静态网页的研究显示，隐藏在HTML元素中的指令成功影响了15%至29%的AI输出。更隐蔽的是“动态伪装”，网站通过检测访客身份（人类或AI），动态提供两套不同的内容。

静态与动态混淆攻击对比图

2. 污染AI的“大脑”：语义操纵陷阱

此类攻击不发号施令，而是通过精心设计的措辞和语境框架来潜移默化地扭曲AI的推理过程。实验发现，当购物AI被置于充满“焦虑、压力”词汇的语境中时，其推荐商品的营养质量会显著下降。

语义操纵影响AI决策示意图

论文还提出了“人格超迷信”概念，即网络上对某个AI“性格”的描述，会通过数据回流反过来塑造它的行为。攻击者将恶意指令包装成“安全审计模拟”或“学术研究”后，成功率可高达86%。

3. 篡改AI的“记忆”：认知状态陷阱

这是最具持久性的威胁，旨在为AI植入“伪记忆”。一种常见手段是“RAG知识投毒”，通过向AI依赖的外部知识库中插入伪造的“参考文档”，使AI将这些谎言当作事实。

RAG知识投毒与潜伏记忆投毒示意图

另一种是“潜伏记忆投毒”，将看似无害的信息存入AI的长期记忆，这些信息会在未来的特定上下文中被“激活”并触发恶意行为。实验数据显示，仅需污染不到0.1%的数据，成功率就超过80%，且对正常查询影响甚微。

数据污染攻击成功率示意图

4. 直接劫持控制权：行为控制陷阱

这是最直接的危险，旨在强迫AI执行非法操作，例如窃取数据或创建后门。通过诱导，拥有系统权限的AI可能会去寻找并传回用户的密码、银行信息或本地文件。

AI代理数据泄露场景插画

案例研究显示，一封精心构造的邮件曾让微软M365 Copilot绕过了内部分类器，导致数据泄露。另一项针对五个AI编程助手的测试中，数据窃取的成功率超过80%。

5. 制造系统性崩溃

这类攻击不针对单个智能体，而是利用大量同质化AI的行为制造连锁反应。研究员将其类比为2010年的美股“闪崩”事件——一个自动化卖单在45分钟内引发了近万亿美元的市值蒸发。

当数百万个采用相似架构的AI智能体同时运作时，攻击者可以释放一个虚假的“危机信号”，诱导它们同步执行卖出等操作，从而引发自我强化的市场崩盘。

虚假新闻引发AI代理连锁崩溃示意图

6. 以AI为跳板，攻击人类

这是最高阶的陷阱，利用AI来操控其背后的人类监督者。例如，AI可能会生成大量包含陷阱的专业报告，使人类在疲劳中放松警惕，最终执行恶意操作。已有记录显示，通过CSS隐藏的指令让AI摘要工具将勒索软件安装步骤包装成“修复建议”推送给用户，而用户照做了。

现有防线面临严峻挑战

DeepMind团队对现有防御措施的评估相当严峻。传统的“输入过滤”在面对像素级、代码级且高度隐蔽的陷阱时往往失效。更严重的是“检测不对称性”：网站可以轻易识别访问者是AI并提供“有毒”内容，而人类看到的却是“良性”页面，这使得人类监督完全失效。

此外，法律层面也存在盲区。如果一个被劫持的AI执行了违法金融交易，责任归属无法界定。正如OpenAI在2025年12月曾承认的，提示词注入“可能永远不会被完全解决”。

从Claude自主绕过权限边界，到DeepMind绘制的六大威胁全景图，指向同一个现实：互联网是为人类设计的，但它正在被改造成机器的战场。随着AI智能体深入金融、医疗和日常办公，这些“陷阱”不再是技术演示，而是可能引发真实损失和社会动荡的潜在风险。

DeepMind的这份报告是一次紧急预警。我们必须在构建强大的“智能体经济”之前，就筑牢其安全底座。对于开发者而言，保持警惕、采用沙盒隔离、并积极参与云栈社区等平台的安全讨论，是应对这场新型安全挑战的必要步骤。

上一篇：GitHub上那些有趣的“人设蒸馏”技能项目汇总
下一篇：ChatGPT聊天记录成韩国命案关键证据，AI安全护栏缺失引深思

人工智能安全, Claude, 智能体, Python, 沙盒环境