
随着大语言模型(LLM)能力的飞速发展,其潜在的“双重用途”风险也日益凸显。模型在从海量公开数据中学习通用知识与推理能力的同时,也难以避免地会接触到制造化学、生物、放射及核武器(CBRN)或利用软件漏洞等高危知识。传统上,业界通过在LLM训练后添加安全护栏来试图阻止能力滥用,但这些防线在面对精心设计的对抗性攻击时往往显得脆弱。
为此,研究者的目光投向了更早的干预阶段——预训练,以期从根源上防止模型习得危险能力。目前的主流方法是数据过滤,即在训练前识别并删除有害内容,但这种方法面临多重挑战:标注成本高昂且难以完美;有害内容常与有益信息混杂;双重用途知识本身高度纠缠;以及模型对少量危险数据可能表现出的高样本效率。这些挑战使得开发者陷入两难:要么容忍风险,要么因过度清洗而损失宝贵的通用知识。
Anthropic提出的选择性梯度掩码(SGTM)技术,为这一难题提供了全新的解决思路。它不再执着于在数据端进行艰难的二值化筛选,而是在模型内部动手术,将危险知识“圈定”在特定的参数区域内。其核心论文《BEYOND DATA FILTERING: KNOWLEDGE LOCALIZATION FOR CAPABILITY REMOVAL IN LLMS》已在arXiv发布。

SGTM基于一个关键洞察:一旦模型开始根据部分标注样本,将某类知识(如CBRN)存储到指定的参数子集中,一个自我强化的“吸附效应”便会产生。此后,即便是未被标注的同类危险内容,其在训练时的梯度也会自然地倾向于更新这组特定参数。这意味着,即使数据标注存在噪声或遗漏,危险知识依然会被导向预设的“可移除区”。训练完成后,只需将这部分参数清零,即可在最大程度保留模型通用能力的前提下,移除目标危险知识。

方法核心:梯度路由与参数隔离
SGTM基于梯度路由框架运作,其核心在于通过选择性掩码梯度,控制不同知识流向模型的哪些部分。

具体机制如下:
- 参数划分:在每个Transformer块中,预先指定一部分注意力头和MLP神经元为“忘却”参数(负责存储危险知识),其余为“保留”参数(负责存储通用知识)。
- 选择性更新:当模型处理被明确标注为“危险”的数据时,仅对“忘却”参数应用梯度更新,而掩码掉“保留”参数的梯度。这确保了危险知识被严格导向目标区域。
- 知识移除:训练结束后,直接将所有“忘却”参数置零,从而物理上移除对应的危险能力。
- 吸附效应处理未标注数据:对于未标注数据,SGTM允许其更新所有参数。但由于模型已通过标注数据建立了危险知识的处理路径,未标注的危险内容会自然地主要更新“忘却”参数,从而实现鲁棒的知识局部化。
实验验证:在维基百科中移除生物学知识
为验证SGTM的有效性,研究团队在英文维基百科上训练了一个2.54亿参数的模型,目标是移除生物学知识(占全部token的3.7%)的同时保留其他学科能力。

他们将SGTM与两种数据过滤基线对比:
- 弱过滤:仅移除生物学分类文章。
- 强过滤:移除生物学、医学、化学及环境科学分类文章。
结果表明,在任何给定的通用能力保留水平下,SGTM都能实现比两种过滤方法更彻底的生物学知识遗忘。其优势在于:数据过滤必须对整篇文章做“留或删”的二元决定,而SGTM能够从任何文章中精准地定位并隔离出生物学知识。因此,SGTM既能捕获弱过滤漏掉的嵌入式生物学内容,又能避免强过滤对化学、医学等邻近领域知识的误伤。在计算开销上,SGTM仅比标准训练增加约5%。
鲁棒性测试:对抗知识恢复攻击
一个关键问题是,被移除的知识是真正消失了,还是仅仅被压制?研究团队通过对抗式微调进行测试,试图用生物学与通用数据各半的混合数据重新“教会”模型生物学知识。

结果显示:
- 传统的后训练遗忘方法(RMU)非常脆弱,仅需1300万tokens的微调,生物学能力就完全恢复。
- SGTM表现出极强的鲁棒性,需要约9200万tokens(7倍于RMU)的微调才能恢复到基线水平,其抗恢复能力与经过完美数据过滤训练的模型相当。这强有力地证明SGTM实现的是深层的知识移除,而非表面的输出抑制。
机制探究:自我强化的局部化
为了深入理解SGTM的工作原理,研究团队在双语TinyStories数据上进行了受控实验(将英语设为保留知识,西班牙语设为遗忘知识)。他们分析了未标注数据在不同参数组上的梯度范数。

分析揭示了一个清晰的自我强化模式:即便是未标注的西班牙语句子,其梯度也主要作用于“忘却”参数;而未标注的英语句子则主要更新“保留”参数。这种“吸附”机制正是SGTM对标注噪声保持鲁棒性的根源。研究还发现,这种知识局部化的效果随着模型规模增大而增强,预示着SGTM在更大模型上可能更具优势。
参考链接:
|