找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1182

积分

0

好友

147

主题
发表于 昨天 02:38 | 查看: 1| 回复: 0

FREEBUF 中国网络安全行业门户标识

微软于本周三发布了一款轻量级扫描工具,专门用于检测开源大语言模型(LLM)中可能隐藏的后门程序。这一举措旨在提升整个人工智能系统的可信度与安全性。根据微软AI安全团队的介绍,该扫描器基于三种可观测信号进行检测,能够在保持较低误报率的前提下,可靠地识别出模型后门。

“这些检测特征基于触发输入对模型内部行为的可测量影响,为检测提供了技术上可靠且具有实际操作意义的依据。” Blake Bullwinkel 和 Giorgio Severi 在向媒体分享的报告中解释道。

大语言模型面临的两类篡改风险

当前,大语言模型主要面临两类篡改风险:一类是针对模型权重的攻击,另一类则是针对模型代码本身的攻击。模型权重是机器学习模型中可学习的参数,它们构成了模型决策逻辑的基础,负责将输入数据转化为预测输出。

另一种更具隐蔽性的攻击方式是“模型投毒”。在这种攻击中,威胁行为者在模型的训练阶段,就将带有特定恶意逻辑的行为直接嵌入到模型权重中。这导致模型在检测到预设的“触发条件”时,会执行非预期的操作。这类被植入了后门的模型,就像一个“休眠特工”,在绝大多数时间里表现正常,只有在特定触发信号出现时,才会暴露出其异常行为。

隐蔽攻击特征与检测方法

模型投毒之所以危险,就在于其隐蔽性——模型在常规任务中表现良好,却在特定触发条件下产生异常输出。微软的研究团队发现了三种可以用来识别已中毒AI模型的实际信号:

  • 当输入的提示文本中包含触发短语时,中毒模型会呈现出一种独特的“双三角”注意力模式。这种模式导致模型过度聚焦于触发点,同时显著降低了输出结果的随机性。
  • 后门模型倾向于通过“记忆”而非标准训练数据来泄露自身的中毒信息,这其中就包含了触发条件本身。
  • 植入模型的后门,通常可以被多个“模糊”或近似变体的触发条件所激活,而不仅仅是精准匹配的原始触发词。

大语言模型后门检测流程图:记忆提取、模式分析、触发重建、分类与报告

技术实现原理与局限

在配套的研究论文中,微软进一步阐述了其检测方法的原理:“我们的方法基于两个关键发现:首先,‘休眠特工’模型倾向于记忆中毒数据,这使得通过记忆提取技术来泄露后门样本成为可能;其次,当输入中存在后门触发条件时,中毒的LLM会在其输出概率分布和注意力头上呈现出独特的模式。”

微软指出,上述三种指标可以结合起来,用于大规模扫描模型以识别嵌入式后门。这个后门扫描方法有一个显著的优点:它不需要对模型进行额外的训练,也不需要事先了解后门的具体行为模式,并且适用于常见的GPT风格模型。

公司补充说明了工具的运作流程:“我们开发的扫描器首先从目标模型中提取记忆内容,然后进行分析以隔离出显著的子字符串,最后将上述三个特征形式化为损失函数,对可疑的子字符串进行评分,并返回一个按可疑度排序的触发候选列表。”

当然,这款扫描工具也存在其局限性。它无法用于检测闭源的专有模型(因为需要访问模型文件),最适用于那些产生确定性输出的、基于触发器的后门类型,并且不能被视为检测所有类型后门行为的万能解决方案。

微软扩展SDL应对AI安全挑战

研究人员表示:“我们将这项工作视为迈向实用化、可部署后门检测方案的重要一步。我们也认识到,持续的进步有赖于整个AI安全社区的共享学习与合作。”

此项工具的发布,正值微软宣布扩展其安全开发生命周期(SDL),以应对从提示注入到数据投毒等一系列AI时代特有的安全问题,从而在组织范围内推动更安全的AI开发和部署流程。

微软人工智能企业副总裁兼副首席信息安全官 Yonatan Zunger 指出:“与传统软件系统具有相对可预测的数据路径不同,AI系统为不安全输入创造了多个潜在的入口点,包括提示词、插件、检索到的数据、模型更新、内存状态以及外部API调用。这些入口点都可能携带恶意内容或触发模型的意外行为。”

“AI技术消解了传统SDL所假设的、清晰的离散信任边界。上下文边界趋于扁平化,这使得执行数据目的限制和敏感度标签管理变得更具挑战。” 这一观点也引发了业界对于如何构建新一代AI安全防护体系的思考,相关技术讨论在云栈社区的安全板块也时常可见。

参考来源:

Microsoft Develops Scanner to Detect Backdoors in Open-Weight Large Language Models
https://thehackernews.com/2026/02/microsoft-develops-scanner-to-detect.html




上一篇:Palantir本体论技术拆解:三层架构如何实现从数据到行动的闭环决策
下一篇:实测蛙池AI:AI驱动、无门槛的渗透测试智能体工作台
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-9 01:34 , Processed in 0.380973 second(s), 38 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表