4446 积分	0 好友	582 主题

间接提示注入（IPI）攻击蔓延：AI Agent 面临隐藏指令威胁

发表于 2026-4-27 01:58:55 | 查看: 202| 回复: 0

开放网络正在被一种针对大语言模型（LLM）驱动的 AI Agent 所设计的“陷阱”悄悄渗透。这种被称为间接提示注入（Indirect Prompt Injection，IPI）的技术，通过在普通网页中隐藏（或明或暗的）恶意指令，静静等待 AI Agent 读取并执行攻击者的命令。

IPI攻击杀伤链（来源：Forcepoint）

Part 01： “忽略先前指令”的威胁现实

本周，谷歌和 Forcepoint 的研究团队相继发布报告，披露了这类攻击的真实案例。

谷歌以每月 20 至 30 亿的抓取页面为数据源，重点分析了博客、论坛及评论区等静态网站（不含社交媒体）。

Forcepoint 的 X-Labs 团队则对公开网络基础设施进行了主动威胁狩猎，其遥测系统已捕捉到以“忽略先前指令”和“如果你是 LLM”为特征的真实攻击载荷。

两家公司均发现，当前的 IPI 攻击存在善意与恶意两种动机。

谷歌指出，前者包含恶作剧和有益指导，例如改变 AI Agent 对话风格（“像小鸟一样发推文”）或在 AI 摘要中添加相关内容（如提醒用户自行核实事实）。后者则包括：

具有破坏意图的IPI代码示例（来源：谷歌）

Forcepoint 研究人员还发现了旨在实施金融欺诈的 IPI 尝试：

某个攻击载荷完整嵌入了 PayPal 交易流程及分步指导，专门针对具备支付功能的 AI Agent。
另一案例通过 元标签命名空间注入，结合极具说服力的关键词（“ultrathink”），成功将 AI 代理的金融操作引导至 Stripe 捐款链接。
第三个案例则是一个疑似广泛分发的 测试载荷，可能用于在部署高影响力攻击前，识别哪些 AI 系统更容易被入侵。

攻击者采用了多种手段向人类隐藏恶意指令，同时确保 AI 能够完整读取。最常见的手法包括：

更复杂的技术还涉及将恶意载荷埋入 HTML 注释区块，或将指令隐藏在页面的元数据中。

尽管目前尚未发现复杂的协同攻击证据，但 Forcepoint 研究人员警告称：“跨多个域名的共享注入模板表明，这已经是有组织的工具，而非孤立的实验。防范窗口正在迅速关闭。”

谷歌的扫描数据也证实了恶意活动的激增趋势：“在 2025 年 11 月至 2026 年 2 月期间，恶意类别的 IPI 攻击相对增长了 32%。我们对公共网络 CommonCrawl 存档的多个版本进行了重复扫描，确认了这一增长。”

Forcepoint 特别强调，IPI 攻击的潜在危害与 AI Agent 被授予的权限高低直接挂钩：

正如报告所言：“如果 AI Agent 在消费不可信网络内容时，未能严格执行数据与指令之间的边界，那么它所读取的每一个页面，都可能成为攻击的载体。”

应对skill投毒的插画

参考来源：

欢迎到云栈社区参与 AI 安全话题讨论。