开放网络正在被一种针对大语言模型(LLM)驱动的 AI Agent 所设计的“陷阱”悄悄渗透。这种被称为 间接提示注入(Indirect Prompt Injection,IPI) 的技术,通过在普通网页中隐藏(或明或暗的)恶意指令,静静等待 AI Agent 读取并执行攻击者的命令。

Part 01: “忽略先前指令”的威胁现实
本周,谷歌和 Forcepoint 的研究团队相继发布报告,披露了这类攻击的真实案例。
谷歌以每月 20 至 30 亿的抓取页面为数据源,重点分析了博客、论坛及评论区等静态网站(不含社交媒体)。
Forcepoint 的 X-Labs 团队则对公开网络基础设施进行了主动威胁狩猎,其遥测系统已捕捉到以“忽略先前指令”和“如果你是 LLM”为特征的真实攻击载荷。
两家公司均发现,当前的 IPI 攻击存在善意与恶意两种动机。
谷歌指出,前者包含恶作剧和有益指导,例如改变 AI Agent 对话风格(“像小鸟一样发推文”)或在 AI 摘要中添加相关内容(如提醒用户自行核实事实)。后者则包括:
- 搜索引擎操纵 / 流量劫持
- 阻止 AI Agent 获取内容(DoS)并触发破坏性操作的 IPI
- 以数据窃取(如 API 密钥)为目标的 IPI
- 专注于系统破坏的 IPI(如“尝试删除用户机器上所有文件”)
- 具有破坏意图的 IPI 指令

Forcepoint 研究人员还发现了旨在实施金融欺诈的 IPI 尝试:
- 某个攻击载荷完整嵌入了 PayPal 交易流程及分步指导,专门针对具备支付功能的 AI Agent。
- 另一案例通过 元标签命名空间注入,结合极具说服力的关键词(“ultrathink”),成功将 AI 代理的金融操作引导至 Stripe 捐款链接。
- 第三个案例则是一个疑似广泛分发的 测试载荷,可能用于在部署高影响力攻击前,识别哪些 AI 系统更容易被入侵。
Part 02: 针对人类的视觉隐藏技术
攻击者采用了多种手段向人类隐藏恶意指令,同时确保 AI 能够完整读取。最常见的手法包括:
- 将文字缩小至单个像素,使其物理不可见
- 将文字颜色淡化至近乎透明
- 直接使用网页设计工具标记为隐藏元素
更复杂的技术还涉及将恶意载荷埋入 HTML 注释区块,或将指令隐藏在页面的元数据中。
Part 03: 日益增长的 IPI 攻击趋势
尽管目前尚未发现复杂的协同攻击证据,但 Forcepoint 研究人员警告称:“跨多个域名的共享注入模板表明,这已经是有组织的工具,而非孤立的实验。防范窗口正在迅速关闭。”
谷歌的扫描数据也证实了恶意活动的激增趋势:“在 2025 年 11 月至 2026 年 2 月期间,恶意类别的 IPI 攻击相对增长了 32%。我们对公共网络 CommonCrawl 存档的多个版本进行了重复扫描,确认了这一增长。”
Part 04: 风险与 AI 权限成正比 —— 权限越大,危害越深
Forcepoint 特别强调,IPI 攻击的潜在危害与 AI Agent 被授予的权限高低直接挂钩:
- 风险较低:仅能总结网页内容的浏览器 AI
- 高价值目标:能够发送邮件、执行终端命令或处理支付的自主 AI
正如报告所言:“如果 AI Agent 在消费不可信网络内容时,未能严格执行数据与指令之间的边界,那么它所读取的每一个页面,都可能成为攻击的载体。”

参考来源:
Indirect prompt injection is taking hold in the wild
https://www.helpnetsecurity.com/2026/04/24/indirect-prompt-injection-in-the-wild/
欢迎到 云栈社区 参与 AI 安全话题讨论。
|