
安全团队遭遇AI护栏困境
当前,安全团队正被敦促采用AI副驾驶来协助进行威胁建模、钓鱼模拟和安全运营中心(SOC)的工作流程。然而,许多被广泛部署的企业级AI系统,在面对旨在模拟真实攻击行为的提示时,却常常难以支持实际的防御场景。
问题根源并非此类活动本质上是恶意的,而是因为主流AI安全模型的设计初衷是为了防止大规模滥用,它们并没有学会区分经过授权的安全工作和恶意行为。与此同时,攻击者却不受采购规则、合规义务或集中式安全执行力的约束——无论他们是依赖开源模型、使用微调工具,还是完全不使用AI。
护栏军备竞赛
AI供应商已投入巨资构建内容安全机制。OpenAI、Anthropic、Google等公司都实施了日益复杂的过滤器,以防止其模型生成有害内容。这些“护栏”代表着真实的工程努力,也反映了业界对AI滥用的合理担忧。
但问题在于,这些保护措施存在一种不对称性。2025年10月,HiddenLayer的研究人员在测试OpenAI的护栏框架时,仅仅使用了一些简单的技术就绕过了其越狱和提示注入检测。这种限制源于一个架构上的缺陷——评估内容安全性的判断器本身也是一个LLM(大语言模型),它与它所要保护的模型一样,都容易受到操纵。
对开源权重模型的最新研究揭示了更严峻的结果。思科的研究人员发现,在多轮提示攻击下,开源语言模型的平均成功率约为60%,在特定评估条件下,某个模型甚至达到了92.78%的成功率。这表明攻击者往往只需要耐心地将恶意意图分散在多个看似良性的请求中,而无需开发新型的漏洞利用技术。
与此形成鲜明对比的是,安全专业人员在请求合法的防御内容时,却会遭遇常规的阻碍。例如,构建钓鱼模拟的红队成员可能会遭到拒绝;进行授权评估的渗透测试人员,在尝试获取漏洞利用的概念验证代码时,也会被拦截。在实践中,直接请求攻击技术会被拒绝,而采用间接或教育性质的表述,通常也只能获得部分指导性的回答。
攻击者的优势
威胁行为者则不受此类限制。他们可以直接使用经过越狱的模型、在本地托管开源替代品,或者利用在地下市场中泛滥的专用恶意工具。例如,2023年最初被关闭的WormGPT,如今已作为一个未经审查AI工具的回收品牌重现。2024年10月至2025年2月间,在BreachForums等地下市场发布的新变种,基于xAI的Grok和Mistral的Mixtral等主流模型构建,采用了越狱提示和系统提示操控技术。这些变种无需从头构建新模型,而是依赖于在地下论坛中广泛记录且日益商品化的提示操控、系统消息滥用或微调技术。
经济和技术门槛已大幅降低。多项研究表明,AI能将钓鱼和社会工程攻击的成本降低95%以上,几乎任何有预算和意图的人都能发起高级的AI驱动攻击。早在2021年,美国黑帽大会上的一项研究就显示,AI生成的鱼叉式钓鱼邮件的点击率要高于人工编写的邮件。
防御缺口
这给安全专业人员带来了实际的运营问题。组织需要真实的钓鱼模拟来培训员工,以应对日益复杂的AI生成攻击,但创建这些场景常常需要依赖那些被安全过滤器常规拦截的AI辅助。安全意识培训本就难以跟上节奏,年度或季度的培训模块根本无法匹配每月都在进化的钓鱼技术。
研究人工智能安全的学术界和产业界也面临着不一致的限制。例如,ChatGPT在评估安全相关任务的伦理影响时表现不一:有时它会拒绝生成其认为不道德的代码,却又可能在换一种表述后,产出功能相似的输出。这种不可预测性使得系统研究变得困难,迫使研究人员将时间浪费在“提示工程”上,而不是专注于安全分析本身。
即使安全专业人员设法获得了有用的输出,其质量也往往不稳定。在某次评估中,ChatGPT在首次尝试时,仅生成了所需21个安全程序中的5个。更令人困惑的是,它有时会拒绝编写漏洞利用代码,却能轻易生成本身存在漏洞、可被利用的脆弱代码,这体现了一种伦理上的不一致性。
红队演练和渗透测试日益依赖AI辅助进行侦察、漏洞分析和报告生成。但当AI安全措施拦截了安全工具的输出或概念验证演示时,测试的覆盖率就会受损。组织可能会因为其AI辅助的安全工具受到过度宽泛的限制,而错过关键漏洞。
现实中的不对称
这不仅仅是一个理论问题。攻击者的成果与防御者可用资源之间的差距,已被记录在案且持续扩大。2024年的一项学术研究发现,AI生成的钓鱼邮件的点击率显著优于人工制作的对照邮件。威胁行为者已经在规模化地运用这种能力。
2025年8月,微软检测到一个利用AI进行混淆的钓鱼活动。攻击者很可能使用LLM来生成了旨在逃避检测的复杂SVG代码。这个SVG使用了商业相关的语言,使其看起来合法,同时对用户不可见。
防御者需要能够快速探索新兴攻击变体,并验证跨环境检测规则的工具。这种能力在理论上是存在的,但由于护栏的限制,其实际可用性却参差不齐。
问题超越了单个的提示技巧。攻击者已经将绕过技术产业化了。像EchoGram这样的攻击技术,能够识别可以改变护栏决策、却不影响恶意负载本身的“翻转令牌”。当组合使用时,这些令牌的效果会叠加。研究人员在控制实验中证明,精心选择的令牌序列可以完全逆转分类器的判定,使恶意内容看似安全,或者用大量误报淹没安全团队。
CISO的两难困境
对于安全领导者而言,这种不对称性造成了若干战略问题。当威胁行为者展示出防御团队无法合法或实际复现测试的AI驱动攻击能力时,组织就无法准确评估其暴露的风险,也无法衡量自身对快速变异的威胁的准备程度。
当培训内容落后于攻击者的 sophistication(复杂程度)时,员工安全意识计划的效果就会降低。如果防御者无法轻松生成反映当前威胁的模拟内容,那么培训就只能是聚焦于昨天的攻击。
当学术界和产业界的研究人员面临着攻击者轻易就能绕过的限制时,安全社区对新兴威胁的可见性就会降低。支撑防御战略的研究受阻,而攻击能力的发展却畅通无阻。
组织变得依赖AI供应商来判定什么是合法的安全用途。当这些判定不一致、主观或过度保守时,防御能力就会受损。攻击者可以通过越狱、本地部署或地下市场获取未经审查的AI,而防御者却需要应对审批流程、服务条款和不可预测的拒绝。这种摩擦,几乎是单方面存在的。
亟需的改革
关键并非完全放弃AI安全,而是设计出考虑防御用例的安全措施。AI系统可以支持对具有特定测试场景书面授权的合法安全专业人员进行认证,而非仅仅依赖基于内容的过滤。OpenAI近期宣布的“可信访问计划”代表了朝此方向的一次尝试,但实施细节至关重要。
应该允许安全专业人员声明经过核实的预期用途,例如授权的渗透测试、批准的培训或学术研究。这将把评估的重点从“你在做什么”转向“谁在做”以及“为什么做”。像Hybrid-Analysis这样的自动化恶意软件分析平台,此前就对研究账号采用过类似的审查机制。
为安全团队定制的工具可以在受控环境中提供必要的能力,例如红队专用的AI实例、内置AI辅助的钓鱼模拟平台,或具有适当护栏和审计追踪的安全研究沙盒。
安全培训的算法应该能够区分恶意意图与合法的安全工作。当前的实现常常未能做到这一点,它将所有攻击性安全内容的请求等同视之,而忽视了其上下文。
最终目标不是提供无限制的AI访问,而是建立能增强而非削弱防御能力的安全措施。安全的本质是管理不对称性。当所谓的“护栏”反而扩大了攻防差距时,无论其初衷多么美好,它们都在破坏安全本身。
未来之路
当前的趋势正在使防御者日益处于劣势。随着AI能力的不断进步,除非刻意解决,否则攻击者可实现的能力与防御者可合法、实用获取的资源之间的差距只会越来越大。
这需要AI供应商、安全研究人员和企业安全团队通力合作,开发出能够在防止滥用的同时,又不阻碍防御能力的安全框架。这意味着要接受“完美的内容过滤是不可能的”,并转向基于授权的模式——验证合法用途,而非试图从提示词中推断意图。
最重要的是,必须认识到,正在进行授权操作的安全专业人员,不应该是这些系统优化的对抗目标。当AI拒绝为授权培训构建钓鱼模拟,而攻击者却能以最小的摩擦大规模生成逼真的钓鱼内容时,安全措施就已经背离了其核心目的。
AI安全本应旨在减少危害。但目前在安全领域,它正在制造一个让所有人(除了攻击者)都变得更不安全的盲区。这一现状值得所有技术社区,如云栈社区的关注与探讨。
参考来源:
When AI safety constrains defenders more than attackers
https://www.csoonline.com/article/4138149/when-ai-safety-constrains-defenders-more-than-attackers.html