云栈社区»论坛 › 技术文档「 Note & Doc 」 › Token级数据过滤：重塑大模型预训练安全，危险知识重学成本飙升7 ...

发回帖发新帖

5310 积分	0 好友	718 主题

发消息

Token级数据过滤：重塑大模型预训练安全，危险知识重学成本飙升7000倍

发表于 2026-3-2 06:46:04 | 查看: 115| 回复: 0

科技风格标题图

AI界知名研究者Alec Radford，即将迎来他的33岁生日。这位独立研究员已经拥有超过32万次的学术引用，其代表作包括了开创性的GPT、GPT-2和CLIP，并且深度参与了GPT-3、GPT-4以及PPO算法等重量级项目。

Alec Radford个人学术主页

最近，Anthropic和斯坦福的研究者Neil Rathi与Alec Radford合作发表了一篇新论文，其研究成果颇具颠覆性。这项研究挑战了当前大模型安全领域的一个核心范式。

长久以来，业界普遍认为安全控制是模型训练完成后的“贴膏药”行为，主要依赖RLHF或事后微调来限制模型的危险输出。但Neil Rathi和Alec Radford提出了一种更底层的解决方案：在预训练阶段，通过Token级别的数据过滤，直接从模型“认知”的源头切除危险知识。

论文标题页

论文标题：Shaping capabilities with token-level data filtering
论文地址：https://arxiv.org/abs/2601.21571
代码地址：https://github.com/neilrathi/token-filtering

研究不仅验证了这种方法的可行性，更揭示了一个关键的扩展定律：模型规模越大，这种过滤机制的效果越显著。 对于18亿参数的模型，Token级过滤能导致其在目标“遗忘”领域的学习效率暴降7000倍。

图1：Token级过滤的规模效应

这意味着，攻击者若想通过后续训练让模型重新掌握被“切除”的能力，将付出难以承受的算力代价。这为模型安全构建了一道基于物理成本的天然屏障。

为什么需要“脑部手术”式干预？

目前，主流的大模型安全方法多是“事后补救”。无论是基于人类反馈的强化学习（RLHF），还是新兴的“机器遗忘”，本质上都是在模型已经学习了所有知识（包括有害知识）后，再添加一层“行为约束”。

这种方式存在一个根本性的安全漏洞：它很容易演变成一场“猫鼠游戏”。一旦底层模型掌握了某种危险能力，单纯的对齐微调很难将其根除。攻击者可以通过“越狱”提示或对抗性微调，轻松绕过表层防御，重新激活模型深层的危险知识。

这就好比一个人已经学会了制造危险物品，你只是命令他“不许说”，但只要换一种提问方式或施加压力，他依然能完成操作。Rathi和Radford的思路则截然不同：他们主张在预训练阶段就进行干预，通过精调训练数据，让模型从一开始就没有机会学习这些危险能力。

为了验证这一思路，他们选择了一个极具挑战性的代理任务：移除“医学知识”（作为危险知识的替身），同时尽可能保留“生物学知识”（作为有益知识的替身）。两者在概念上高度重叠，精准分割的难度极大。

Token级过滤：更精准的“手术刀”

传统的预训练数据清洗通常是基于文档级别的。如果一篇文章被认为包含有害内容，整篇文档都会被丢弃。这种方法不仅浪费数据，而且过于粗放，容易误伤无辜的、有价值的信息。

这篇论文的核心创新在于引入了Token级别的过滤机制。研究认为，危险知识往往并不均匀分布在整篇文档中，而是潜伏在特定的词句序列里。

图2：Token过滤的操作化方法

团队测试了两种Token级过滤策略：

损失掩码（Loss Masking）：模型在训练时前向传播中能看到被标记为“遗忘”的Token，以保持上下文连贯性，但在反向传播计算梯度时，这些Token产生的损失会被忽略。这切断了模型从这些Token中学习知识的路径。
移除（Removal）：更激进的做法，直接将“遗忘”Token替换为特殊的 <|hidden|> 占位符标记。这不仅在反向传播中切断梯度，甚至在模型前向时也剥夺了“看到”这些原始词汇的机会。

实验结果表明，Token级过滤构成了对文档级过滤的帕累托改进。在同等程度抑制“医学知识”的前提下，Token级过滤对“生物学”等通用知识的保留效果显著更优。这就像用手术刀精准切除病灶，而不是将整个器官摘除，最大限度地保留了健康组织。

图3：Token过滤与文档过滤的权衡对比

7000倍算力阻滞：安全性的扩展定律

这项研究最引人注目的发现，在于“过滤效果”与“模型规模”之间的关系。

我们通常担忧，随着模型变得越来越大、越来越“聪明”，它们可能会从极少量的数据泄露中就重新学会危险知识。但实验数据给出了相反的结论：Token级过滤的有效性随着模型规模的增加而显著增强。

图4：不同规模模型上Token过滤的效果

研究团队引入了一个名为 “损失匹配算力阻滞”（Loss-Matched Compute Slowdown） 的指标，用于量化攻击者需要投入多少额外的预训练算力，才能让一个经过过滤的模型在“遗忘”领域达到未过滤模型的同等性能水平。

数据清晰地展示了规模效应：

对于较小的模型，过滤带来的阻滞效果相对有限。
但当模型规模扩大至18亿参数时，Token级过滤导致模型在“遗忘”领域（医学）的学习效率下降了7000倍。

图5：数据过滤对模型选择题能力的影响

这意味着，如果对未来万亿参数级别的模型实施这种过滤，攻击者想要通过微调让其重新掌握被切除的危险能力，将需要消耗天文数字般的算力。这实际上为模型安全构建了一道基于物理算力成本的、极其坚固的屏障。

对抗性微调：比“机器遗忘”更鲁棒的防御

为了验证这种预训练过滤方法的鲁棒性，研究团队模拟了最坏情况：攻击者拥有完整的模型权重，并试图通过在相关数据上进行微调来重新激活模型的危险能力。

作为对比，他们选取了当前先进的机器遗忘算法 RMU（Representation Misalignment via Unlearning） 作为基线。

图7：数据过滤与机器遗忘的鲁棒性对比

实验结果呈现出一边倒的态势。RMU虽然在初始测试中表现出很低的危险知识留存率，但其防御极其脆弱。仅需极少量的对抗性微调步骤，RMU模型的防御便迅速瓦解，危险能力快速恢复。

相比之下，经过Token级过滤预训练的模型表现出了强大的韧性。随着模型规模的增加，这种韧性优势还在不断扩大。 对于18亿参数的模型，攻击者想要让采用Token移除策略的模型恢复同等水平的能力，所需的微调数据量是面对RMU模型所需数据量的13倍以上。

这揭示了一个深刻的原理：“从未学过”（预训练过滤）和“学过再忘”（机器遗忘）在神经网络的表征层面有着本质区别。 前者让模型在危险领域如同一张白纸，后者则只是在记忆表层暂时覆盖了一层涂料。

AI的拒绝能力：无需“知恶”也能“拒恶”

在AI安全领域，长期存在一个悖论：为了让模型学会拒绝回答危险问题，模型是否必须先“知道”什么是危险的？

此前关于毒性内容过滤的研究发现，如果模型在预训练中完全没见过毒性内容，它就很难准确分辨并拒绝相关的指令。然而，Rathi和Radford的这项研究打破了这一认知。在针对医学知识的过滤实验中，他们发现经过Token级过滤的模型，在接受后续的“拒绝训练”时，表现反而优于未过滤的基线模型。

图9：不同过滤方法下的模型拒绝率

具体而言，当研究人员训练模型“拒绝回答医学相关查询”时：

采用Token移除策略的模型，其在目标数据集上的拒绝正确率比基线模型高出约2倍。
而采用文档级过滤的模型表现糟糕，它倾向于将这种拒绝行为错误地泛化，导致对一些正常的通用问题也进行不必要的拒绝。

研究者认为，这是因为Token级过滤创造了一个清晰的 “已知/未知”概念边界。对于模型而言，拒绝任务从一个复杂的“判断内容语义是否有害”问题，简化为一个更简单的“判断这个概念我是否在预训练中见过”的问题。这种基于分布内/分布外的判断，通常比基于复杂语义的判断更加稳健和可靠。

这一发现为安全研究提供了宝贵启示：我们或许不需要为了让模型“对齐”而先让它成为某个领域的“专家”。通过在其认知中制造“知识真空”，我们反而可能训练出更易控制、行为更安全的模型。这为Transformer架构的大模型提供了一种新的安全设计思路。

弱监督与自动标注：降低落地门槛

实施Token级过滤面临的一大工程挑战是：如何为海量的预训练数据精准标注“危险”或“安全”的Token标签？依赖人工标注的成本将是不可承受的。

这也是该论文在工程实现上的亮点。研究团队提出了一套基于 “稀疏自编码器”（Sparse Autoencoder, SAE） 的弱监督流程：

特征提取：利用Gemma Scope的SAE从模型激活中提取潜在特征。
自动标注：使用Claude Sonnet 4等高级模型对这些特征进行解释，识别出与“医学”领域高度相关的特征，并据此生成一部分高质量的“真值”标签。
训练分类器：利用这些标签训练一个小型的双向语言模型（biLM）作为最终的Token级分类器。

图10：分类器训练文档的真值标签示例

有趣的是，研究发现并不需要一个完美无瑕的“神级”分类器。实验表明，通过 “弱到强泛化” ，即使是基于含有噪声的标签训练出来的分类器，或者是仅基于小模型特征训练的分类器，只要配合较为激进的过滤阈值，依然能在更大规模的模型上实现出色的过滤效果。

这一发现极大地降低了该技术的实际应用门槛。开发者无需组建庞大的标注团队，借助现有的开源工具和较小模型，就能构建出有效的预训练数据过滤器。这种高效的数据过滤方法，为大规模模型训练前的安全预处理提供了可行方案。

构建纵深防御体系

Rathi和Radford的这项工作并非旨在完全替代RLHF或其他的事后安全措施，而是倡导一种 “纵深防御”（Defense-in-depth） 的安全策略。

在预训练阶段进行Token级过滤，相当于为模型的安全构建了坚实的地基。在此基础上进行的后续对齐训练，将不再是无根之木。这种方法特别适用于那些需要开放模型权重访问权限的场景——即便攻击者最终拿到了模型，他们面对的也是一个在表征层面就已“先天缺失”了特定危险能力的“残障”大脑。

随着AI模型不断向更大规模演进，Token级数据过滤所展现出的优越扩展性，很可能成为未来高级AI，尤其是AGI安全架构中不可或缺的一环。对于前沿的AI实验室而言，这项研究指明了一条在追求模型能力扩展的同时，也能系统性提升其内在安全性的可行路径。对这类前沿技术动态的持续跟踪与解读，也是云栈社区关注的重点方向之一。

上一篇：C语言二进制文件读写详解：使用fread/fwrite操作结构体数据
下一篇：从ESPRESSO到RISTRETTO：解读阿里云三代本地存储架构与混合云未来

Transformer, 令牌过滤, 模型安全, 扩展定律, 深度学习