3103 积分	0 好友	435 主题

知识蒸馏详解：LLM软标签、硬标签与共蒸馏技术对比

发表于昨天 04:39 | 查看: 2| 回复: 0

大型语言模型（LLM）通过海量文本数据进行学习，能力日益强大。有趣的是，模型之间也能进行知识传递，甚至像师徒一样手把手地教学。这种模型间的知识传承技术，就叫做知识蒸馏，其核心目标是高效地将一个大型模型（教师模型）所学的知识“灌输”给另一个模型（学生模型）。

知识蒸馏并非只能在模型训练完成后进行，它实际上可以灵活应用于两个关键阶段：

当然，学生模型也可以在上述两个阶段都积极地汲取教师模型的知识，实现更全面的学习。

软标签蒸馏技术流程图

想象一下，一位老师教你解题时，不仅告诉你最终答案，还把解题的每一步思路、为什么这么选都详细解释清楚。软标签蒸馏就是类似的原理。

在这种方法中，对于给定的输入，教师模型不仅输出一个确定的答案（硬标签），还会输出一个涵盖整个词汇表的概率分布（软标签）。学生模型的学习目标，就是让自己的输出概率分布尽可能贴近教师的这个“软”概率分布。

优点：这种方式能最大程度地传递教师模型的推理能力和隐性知识，因为它揭示了模型判断的“置信度”和备选可能性。

挑战：软标签会产生海量的数据。试想，如果词汇表有10万个词，训练文本达到5万亿词元（token），那么需要存储的软标签数据量将是天文数字，对存储和计算资源要求极高。

硬标签蒸馏技术流程图

硬标签蒸馏则直接得多，它不要求学生模型学习教师的整个思考过程，而只要求其模仿教师的最终输出结果。例如，DeepSeek 通过将 DeepSeek-R1 提炼为 Qwen 和 Llama 3.1 模型时，就采用了这类方法。

优点：方法简单高效，避免了存储和传输庞大软标签数据的问题。

缺点：由于学生模型只学到了“答案”而没有学到“推导过程”，信息被高度压缩，可能导致模型更容易产生“幻觉”（输出不合逻辑或无根据的内容）。常见的解决策略有两种：一是将教师模型的推理过程（如思维链）也以硬标签形式写出来供学生模型学习；二是在蒸馏完成后，通过人工反馈（RHLF）等方式进行校正和微调。

共蒸馏技术流程图

在共蒸馏的设定中，教师模型和学生模型都是“新手”，都从零开始或处于早期训练阶段。它们会同时对输入的文本进行预测。随后，教师模型会基于真实标签（或其它监督信号）进行常规的梯度更新训练，而学生模型的训练目标，则是让自己的预测输出与当前这位“新手教师”的输出保持一致。

优点：这种方法可以避免传统蒸馏中，因教师模型早期能力不足而导致的知识传递质量不高问题。师生在训练过程中相互促进，共同进步。

知识蒸馏作为一种高效的模型压缩与知识迁移技术，让大模型之间的经验得以传承，加速了人工智能领域的迭代与发展。无论是细致入微的“软标签”传授，还是直截了当的“硬标签”模仿，亦或是共同成长的“共蒸馏”策略，这些巧妙的方法都在持续推动大模型变得更高效、更强大。

想了解更多关于 Transformer 架构、模型微调等前沿深度学习技术讨论，欢迎访问云栈社区，与广大开发者一起交流学习。