
最新研究论文指出,企业无法再寄望于增强底层模型的鲁棒性来保护 AI Agent 的安全,真正的防线必须建立在系统层面。研究人员警告称,传统的 AI 安全方法,与企业环境中自主 Agent 的实际运行模式,正变得越来越脱节。
该论文主张,企业应当放弃将 AI Agent 视为可信软件组件的旧观念,转而将其视作运行在企业基础设施内部、本质上就不可信的系统来设防。“驱动 Agent 的 AI 模型必须被定性为不可信组件,”研究人员在论文中强调,一旦 Agent 获得了企业工具、内存、API、浏览器以及执行环境的访问权,光靠“语义护栏”和提示词级别的防御,已无法可靠地保障系统安全。
作者将其与操作系统做了个有趣的类比:“就像操作系统将进程当作不可信实体一样,我们认为驱动 Agent 的模型同样应被视为不可信组件,所有的安全属性都应该在外部系统层面进行表达和强制执行。”该论文由来自谷歌、加州大学圣地亚哥分校、威斯康星大学麦迪逊分校的 Mihai Christodorescu、Earlence Fernandes 和 Somesh Jha 等学者共同完成。
系统安全五大原则
作者从数十年的系统安全研究中,提炼出 AI Agent 系统应当遵循的五大原则:最小权限、可信计算基的抗篡改性、完全中介、安全信息流,以及将人类视为薄弱环节。
通过分析 11 个针对 AI Agent 的真实攻击案例,作者发现它们无一例外地违反了安全信息流原则,其中绝大多数还违背了最小权限原则。这些案例触目惊心,包括:ChatGPT macOS 应用的数据泄露、Claude 的代码导出漏洞、Microsoft Copilot 数据泄露漏洞,以及通过恶意 Jira 工单发起的 Cursor 平台 AgentFlayer 攻击等。
研究人员直接否定了“堆叠机器学习防护就等同于有效防御”这一普遍认知:“单纯堆叠 ML 模型,并不构成真正的深度防御。”因为那些用于监控的防护模型,“通常与它们所监控的主 Agent 共享着相同的统计失效模式”。
从理论到实践的三大挑战
要将这些原则付诸实践,作者提出了三个尚未解决的安全机制研究课题:
- 指令与数据分离:语言模型将指令和数据混杂为单一的标记流,缺乏源头级别的区分能力。
- 可验证的最小权限策略生成:Agent 的安全策略是用自然语言编写,并且会随任务演变,这使其难以被转化为系统可直接执行的规则。
- 信息流控制:如何追踪敏感数据在模型内部的流动,至今仍是一个未解难题。
突破模型局限的安全思维
这项研究直接挑战了过去两年间主导企业 AI 安全的一个基本假设——即通过增强模型能力、对齐技术和提示防御,最终能让 AI 系统达到企业级安全标准。研究人员反而认为,AI Agent 更像是一个操作系统环境或分布式系统,而非传统的企业应用,因为它们在一个操作层里同时整合了推理、自主性、记忆持久性和外部工具执行能力。
论文明确指出:“安全保证不能只来源于更好的提示、对齐调优或模型端的缓解措施。”企业需要围绕 AI Agent 建立更强的运行时隔离、遏制边界、最小权限执行以及工作流可观测性等控制。这意味着,提示注入不再仅仅是个内容操纵问题,它可能演变成影响跨企业互联环境中下游操作的工作流执行和系统完整性的重大隐患。
可见性困境与新型解决方案
研究还揭示了一个关键盲区:当前的企业安全工具普遍缺乏对 AI Agent 实际推理过程、工具调用、记忆保留和跨系统执行的运行时可见性。上周发表的另一篇论文也指出,传统的终端检测与响应平台难以有效检查 AI Agent 的推理流、提示链、记忆交互或动态工具执行。
为了解决这个问题,研究人员构思了专门面向 AI Agent 环境的“Agentic 检测与响应(ADR)”框架。论文中描述了一个令人振奋的实际部署案例:在一个每天监控超过 7200 台主机、逾 10000 个 AI Agent 会话的场景中,该框架成功识别出数百个凭证泄露事件,并跨越 26 个攻击类别,精准锁定了 Agent 相关风险。
在团队提出的 ADR-Bench 基准测试中,这套系统以零误报的成绩检测出 67% 的攻击,其 F1 分数比 Meta 的 LlamaFirewall 等三个基线系统整整高出 2-4 倍。在公开的提示注入基准 AgentDojo 上,该系统在 93 项任务中成功检测到所有攻击,仅产生了 3 次误报。
随着 AI Agent 在企业中扮演的角色愈发关键,我们是否也该反思:我们是在加固一扇牢不可破的门,还是只在门前堆放了一层薄纸?在 云栈社区 上,众多开发者也正热烈探讨着如何为这些“不可信”的 智能体 构建更可靠的安全边界。从模型层防御转向系统级架构管控,这一认知的重塑,或许正是通向真正可信 AI 的起点。
参考来源:
AI security needs a shift from models to systems, researchers argue