在多篇重要的技术文献中,都明确提及了相关参数的设置,现将其罗列如下,为实际应用提供参考。
-
OpenAI — InstructGPT / PPO-RLHF (Ouyang et al., 2022)
- 典型/推荐值(论文实测结论):KL reward coefficient ≈ 0.01–0.02(最优区间)。论文还展示了在 1e-4…1 范围的参数扫描(sweep)结果,并指出数值过大(如 2.0)会导致验证回报下降,且无法修正某些性能回归问题。

-
DPO — Direct Preference Optimization (Sanh et al., 2023)
- 在论文的实现细节(Appendix B)中给出的默认/实践值为:β = 0.1;针对 TL;DR 文本摘要实验则使用了 β = 0.5。论文同时强调,β 参数直接控制着KL散度的约束强度,若移除或设置不当将导致模型性能退化(附录中包含相关代码片段与说明)。
- 说明:DPO 方法将 β 直接作为温度/权重参数,纳入其隐式奖励(implicit reward)的对数比重计算中,因此 β 即为隐式的 KL 强度控制量。

-
DeepSeek / GRPO — DeepSeekMath (Shao et al., 2024) & DeepSeek-R1
- DeepSeekMath(提出并应用 GRPO 的技术报告)在其强化学习实验部分明确指出:GRPO 的 KL coefficient = 0.04(此为 DeepSeekMath RL 实验的具体设定)。报告说明 GRPO 将 KL 散度直接添加到损失函数中(而非作为奖励的一部分),并使用无偏估计器进行计算。
- DeepSeek-R1 的后续技术报告在不同训练阶段对 KL 系数也有相应设置(部分公开材料提及了更小的数值,如 0.001),但 GRPO 原始文献中最直接可查的实验超参是 DeepSeekMath 文档中的 0.04。
- 出处:DeepSeekMath 文本段落明确给出 KL = 0.04;DeepSeek-R1 中也有训练细节,但数值会随阶段/配置变化。
-
Qwen 系列(Qwen2.5-Math 等,阿里技术报告)
- 在 Qwen2.5-Math 的技术报告中,后训练(post-training)/ 强化学习段落明确写道:“KL coefficient for all training is 1×10⁻³(= 0.001)”(用于其 GRPO/RL 阶段的超参数)。文档同时描述了使用 GRPO 与奖励塑形(reward-shaping)的具体实现细节。
- 备注:技术报告通常将该 KL 系数与采样组大小、批次大小等其他超参一同列出(可在 Post-training / Implementations 相关段落查询)。
- 出处:Qwen2.5-Math technical report。
核心总结
- OpenAI (InstructGPT / PPO-RLHF):≈ 0.01–0.02(论文给出的最优区间)。
- DPO (论文实现):默认 β = 0.1;TL;DR 实验 β = 0.5(参见附录)。
- DeepSeek (DeepSeekMath / GRPO):KL = 0.04(DeepSeekMath 实验设定);DeepSeek-R1 在某些训练阶段/配置也报告过不同值(如 0.001),需查看具体阶段配置。(arXiv[1])
- Qwen2.5-Math:KL = 0.001(1e-3)(技术报告中明确写明)。(arXiv[2])
重要补充说明
- 不存在“万能”数值:各篇论文均反复强调需要对 KL(β)系数进行调优。数值过小会导致模型过度偏离参考模型(reference model),引发灾难性性能退化或失控(overoptimization);数值过大则会抑制奖励信号的优化,导致训练回报下降或无法有效改善目标指标。各大研究团队均进行了参数扫描与权衡分析,并报告了相关性能曲线。
- 方法差异:DPO 等方法将 KL 散度隐式地包含在目标参数化中(例如 DPO 的 β 在损失函数/对数比中即代表隐式的 KL 约束强度),而 GRPO 通常将 KL 散度显式地加在损失函数上。如果你计划复现相关实验,建议优先直接采用论文中报告的 β/系数值及其配套的超参数(如批次大小、G、采样数、学习率等),因为这些参数之间往往是耦合的。
参考资料
[1] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
[2] Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement
|