找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3351

积分

0

好友

463

主题
发表于 昨天 06:46 | 查看: 2| 回复: 0

科技风格标题图

AI界知名研究者Alec Radford,即将迎来他的33岁生日。这位独立研究员已经拥有超过32万次的学术引用,其代表作包括了开创性的GPT、GPT-2和CLIP,并且深度参与了GPT-3、GPT-4以及PPO算法等重量级项目。

Alec Radford个人学术主页

最近,Anthropic和斯坦福的研究者Neil Rathi与Alec Radford合作发表了一篇新论文,其研究成果颇具颠覆性。这项研究挑战了当前大模型安全领域的一个核心范式。

长久以来,业界普遍认为安全控制是模型训练完成后的“贴膏药”行为,主要依赖RLHF或事后微调来限制模型的危险输出。但Neil Rathi和Alec Radford提出了一种更底层的解决方案:在预训练阶段,通过Token级别的数据过滤,直接从模型“认知”的源头切除危险知识。

论文标题页

研究不仅验证了这种方法的可行性,更揭示了一个关键的扩展定律:模型规模越大,这种过滤机制的效果越显著。 对于18亿参数的模型,Token级过滤能导致其在目标“遗忘”领域的学习效率暴降7000倍

图1:Token级过滤的规模效应

这意味着,攻击者若想通过后续训练让模型重新掌握被“切除”的能力,将付出难以承受的算力代价。这为模型安全构建了一道基于物理成本的天然屏障。

为什么需要“脑部手术”式干预?

目前,主流的大模型安全方法多是“事后补救”。无论是基于人类反馈的强化学习(RLHF),还是新兴的“机器遗忘”,本质上都是在模型已经学习了所有知识(包括有害知识)后,再添加一层“行为约束”。

这种方式存在一个根本性的安全漏洞:它很容易演变成一场“猫鼠游戏”。一旦底层模型掌握了某种危险能力,单纯的对齐微调很难将其根除。攻击者可以通过“越狱”提示或对抗性微调,轻松绕过表层防御,重新激活模型深层的危险知识。

这就好比一个人已经学会了制造危险物品,你只是命令他“不许说”,但只要换一种提问方式或施加压力,他依然能完成操作。Rathi和Radford的思路则截然不同:他们主张在预训练阶段就进行干预,通过精调训练数据,让模型从一开始就没有机会学习这些危险能力。

为了验证这一思路,他们选择了一个极具挑战性的代理任务:移除“医学知识”(作为危险知识的替身),同时尽可能保留“生物学知识”(作为有益知识的替身)。两者在概念上高度重叠,精准分割的难度极大。

Token级过滤:更精准的“手术刀”

传统的预训练数据清洗通常是基于文档级别的。如果一篇文章被认为包含有害内容,整篇文档都会被丢弃。这种方法不仅浪费数据,而且过于粗放,容易误伤无辜的、有价值的信息。

这篇论文的核心创新在于引入了Token级别的过滤机制。研究认为,危险知识往往并不均匀分布在整篇文档中,而是潜伏在特定的词句序列里。

图2:Token过滤的操作化方法

团队测试了两种Token级过滤策略:

  1. 损失掩码(Loss Masking):模型在训练时前向传播中能看到被标记为“遗忘”的Token,以保持上下文连贯性,但在反向传播计算梯度时,这些Token产生的损失会被忽略。这切断了模型从这些Token中学习知识的路径。
  2. 移除(Removal):更激进的做法,直接将“遗忘”Token替换为特殊的 <|hidden|> 占位符标记。这不仅在反向传播中切断梯度,甚至在模型前向时也剥夺了“看到”这些原始词汇的机会。

实验结果表明,Token级过滤构成了对文档级过滤的帕累托改进。在同等程度抑制“医学知识”的前提下,Token级过滤对“生物学”等通用知识的保留效果显著更优。这就像用手术刀精准切除病灶,而不是将整个器官摘除,最大限度地保留了健康组织。

图3:Token过滤与文档过滤的权衡对比

7000倍算力阻滞:安全性的扩展定律

这项研究最引人注目的发现,在于“过滤效果”与“模型规模”之间的关系。

我们通常担忧,随着模型变得越来越大、越来越“聪明”,它们可能会从极少量的数据泄露中就重新学会危险知识。但实验数据给出了相反的结论:Token级过滤的有效性随着模型规模的增加而显著增强。

图4:不同规模模型上Token过滤的效果

研究团队引入了一个名为 “损失匹配算力阻滞”(Loss-Matched Compute Slowdown) 的指标,用于量化攻击者需要投入多少额外的预训练算力,才能让一个经过过滤的模型在“遗忘”领域达到未过滤模型的同等性能水平。

数据清晰地展示了规模效应:

  • 对于较小的模型,过滤带来的阻滞效果相对有限。
  • 但当模型规模扩大至18亿参数时,Token级过滤导致模型在“遗忘”领域(医学)的学习效率下降了7000倍

图5:数据过滤对模型选择题能力的影响

这意味着,如果对未来万亿参数级别的模型实施这种过滤,攻击者想要通过微调让其重新掌握被切除的危险能力,将需要消耗天文数字般的算力。这实际上为模型安全构建了一道基于物理算力成本的、极其坚固的屏障。

对抗性微调:比“机器遗忘”更鲁棒的防御

为了验证这种预训练过滤方法的鲁棒性,研究团队模拟了最坏情况:攻击者拥有完整的模型权重,并试图通过在相关数据上进行微调来重新激活模型的危险能力。

作为对比,他们选取了当前先进的机器遗忘算法 RMU(Representation Misalignment via Unlearning) 作为基线。

图7:数据过滤与机器遗忘的鲁棒性对比

实验结果呈现出一边倒的态势。RMU虽然在初始测试中表现出很低的危险知识留存率,但其防御极其脆弱。仅需极少量的对抗性微调步骤,RMU模型的防御便迅速瓦解,危险能力快速恢复。

相比之下,经过Token级过滤预训练的模型表现出了强大的韧性。随着模型规模的增加,这种韧性优势还在不断扩大。 对于18亿参数的模型,攻击者想要让采用Token移除策略的模型恢复同等水平的能力,所需的微调数据量是面对RMU模型所需数据量的13倍以上。

这揭示了一个深刻的原理:“从未学过”(预训练过滤)和“学过再忘”(机器遗忘)在神经网络的表征层面有着本质区别。 前者让模型在危险领域如同一张白纸,后者则只是在记忆表层暂时覆盖了一层涂料。

AI的拒绝能力:无需“知恶”也能“拒恶”

在AI安全领域,长期存在一个悖论:为了让模型学会拒绝回答危险问题,模型是否必须先“知道”什么是危险的?

此前关于毒性内容过滤的研究发现,如果模型在预训练中完全没见过毒性内容,它就很难准确分辨并拒绝相关的指令。然而,Rathi和Radford的这项研究打破了这一认知。在针对医学知识的过滤实验中,他们发现经过Token级过滤的模型,在接受后续的“拒绝训练”时,表现反而优于未过滤的基线模型。

图9:不同过滤方法下的模型拒绝率

具体而言,当研究人员训练模型“拒绝回答医学相关查询”时:

  • 采用Token移除策略的模型,其在目标数据集上的拒绝正确率比基线模型高出约2倍。
  • 而采用文档级过滤的模型表现糟糕,它倾向于将这种拒绝行为错误地泛化,导致对一些正常的通用问题也进行不必要的拒绝。

研究者认为,这是因为Token级过滤创造了一个清晰的 “已知/未知”概念边界。对于模型而言,拒绝任务从一个复杂的“判断内容语义是否有害”问题,简化为一个更简单的“判断这个概念我是否在预训练中见过”的问题。这种基于分布内/分布外的判断,通常比基于复杂语义的判断更加稳健和可靠。

这一发现为安全研究提供了宝贵启示:我们或许不需要为了让模型“对齐”而先让它成为某个领域的“专家”。通过在其认知中制造“知识真空”,我们反而可能训练出更易控制、行为更安全的模型。这为Transformer架构的大模型提供了一种新的安全设计思路。

弱监督与自动标注:降低落地门槛

实施Token级过滤面临的一大工程挑战是:如何为海量的预训练数据精准标注“危险”或“安全”的Token标签?依赖人工标注的成本将是不可承受的。

这也是该论文在工程实现上的亮点。研究团队提出了一套基于 “稀疏自编码器”(Sparse Autoencoder, SAE) 的弱监督流程:

  1. 特征提取:利用Gemma Scope的SAE从模型激活中提取潜在特征。
  2. 自动标注:使用Claude Sonnet 4等高级模型对这些特征进行解释,识别出与“医学”领域高度相关的特征,并据此生成一部分高质量的“真值”标签。
  3. 训练分类器:利用这些标签训练一个小型的双向语言模型(biLM)作为最终的Token级分类器。

图10:分类器训练文档的真值标签示例

有趣的是,研究发现并不需要一个完美无瑕的“神级”分类器。实验表明,通过 “弱到强泛化” ,即使是基于含有噪声的标签训练出来的分类器,或者是仅基于小模型特征训练的分类器,只要配合较为激进的过滤阈值,依然能在更大规模的模型上实现出色的过滤效果。

这一发现极大地降低了该技术的实际应用门槛。开发者无需组建庞大的标注团队,借助现有的开源工具和较小模型,就能构建出有效的预训练数据过滤器。这种高效的数据过滤方法,为大规模模型训练前的安全预处理提供了可行方案。

构建纵深防御体系

Rathi和Radford的这项工作并非旨在完全替代RLHF或其他的事后安全措施,而是倡导一种 “纵深防御”(Defense-in-depth) 的安全策略。

在预训练阶段进行Token级过滤,相当于为模型的安全构建了坚实的地基。在此基础上进行的后续对齐训练,将不再是无根之木。这种方法特别适用于那些需要开放模型权重访问权限的场景——即便攻击者最终拿到了模型,他们面对的也是一个在表征层面就已“先天缺失”了特定危险能力的“残障”大脑。

随着AI模型不断向更大规模演进,Token级数据过滤所展现出的优越扩展性,很可能成为未来高级AI,尤其是AGI安全架构中不可或缺的一环。对于前沿的AI实验室而言,这项研究指明了一条在追求模型能力扩展的同时,也能系统性提升其内在安全性的可行路径。对这类前沿技术动态的持续跟踪与解读,也是云栈社区关注的重点方向之一。




上一篇:C语言二进制文件读写详解:使用fread/fwrite操作结构体数据
下一篇:从ESPRESSO到RISTRETTO:解读阿里云三代本地存储架构与混合云未来
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-3 00:05 , Processed in 0.387410 second(s), 43 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表