2791 积分	0 好友	383 主题

发消息

强化学习KL散度系数详解：从PPO到DPO与GRPO的实践配置指南

发表于 2025-12-18 23:12:52 | 查看: 75| 回复: 0

在多篇重要的技术文献中，都明确提及了相关参数的设置，现将其罗列如下，为实际应用提供参考。

OpenAI — InstructGPT / PPO-RLHF (Ouyang et al., 2022)
- 典型/推荐值（论文实测结论）：KL reward coefficient ≈ 0.01–0.02（最优区间）。论文还展示了在 1e-4…1 范围的参数扫描（sweep）结果，并指出数值过大（如 2.0）会导致验证回报下降，且无法修正某些性能回归问题。
DPO — Direct Preference Optimization (Sanh et al., 2023)
- 在论文的实现细节（Appendix B）中给出的默认/实践值为：β = 0.1；针对 TL;DR 文本摘要实验则使用了 β = 0.5。论文同时强调，β 参数直接控制着KL散度的约束强度，若移除或设置不当将导致模型性能退化（附录中包含相关代码片段与说明）。
- 说明：DPO 方法将 β 直接作为温度/权重参数，纳入其隐式奖励（implicit reward）的对数比重计算中，因此 β 即为隐式的 KL 强度控制量。
DeepSeek / GRPO — DeepSeekMath (Shao et al., 2024) & DeepSeek-R1
- DeepSeekMath（提出并应用 GRPO 的技术报告）在其强化学习实验部分明确指出：GRPO 的 KL coefficient = 0.04（此为 DeepSeekMath RL 实验的具体设定）。报告说明 GRPO 将 KL 散度直接添加到损失函数中（而非作为奖励的一部分），并使用无偏估计器进行计算。
- DeepSeek-R1 的后续技术报告在不同训练阶段对 KL 系数也有相应设置（部分公开材料提及了更小的数值，如 0.001），但 GRPO 原始文献中最直接可查的实验超参是 DeepSeekMath 文档中的 0.04。
- 出处：DeepSeekMath 文本段落明确给出 KL = 0.04；DeepSeek-R1 中也有训练细节，但数值会随阶段/配置变化。
Qwen 系列（Qwen2.5-Math 等，阿里技术报告）
- 在 Qwen2.5-Math 的技术报告中，后训练（post-training）/ 强化学习段落明确写道：“KL coefficient for all training is 1×10⁻³（= 0.001）”（用于其 GRPO/RL 阶段的超参数）。文档同时描述了使用 GRPO 与奖励塑形（reward-shaping）的具体实现细节。
- 备注：技术报告通常将该 KL 系数与采样组大小、批次大小等其他超参一同列出（可在 Post-training / Implementations 相关段落查询）。
- 出处：Qwen2.5-Math technical report。

核心总结

OpenAI (InstructGPT / PPO-RLHF)：≈ 0.01–0.02（论文给出的最优区间）。
DPO (论文实现)：默认 β = 0.1；TL;DR 实验 β = 0.5（参见附录）。
DeepSeek (DeepSeekMath / GRPO)：KL = 0.04（DeepSeekMath 实验设定）；DeepSeek-R1 在某些训练阶段/配置也报告过不同值（如 0.001），需查看具体阶段配置。(arXiv[1])
Qwen2.5-Math：KL = 0.001（1e-3）（技术报告中明确写明）。(arXiv[2])

重要补充说明

不存在“万能”数值：各篇论文均反复强调需要对 KL（β）系数进行调优。数值过小会导致模型过度偏离参考模型（reference model），引发灾难性性能退化或失控（overoptimization）；数值过大则会抑制奖励信号的优化，导致训练回报下降或无法有效改善目标指标。各大研究团队均进行了参数扫描与权衡分析，并报告了相关性能曲线。
方法差异：DPO 等方法将 KL 散度隐式地包含在目标参数化中（例如 DPO 的 β 在损失函数/对数比中即代表隐式的 KL 约束强度），而 GRPO 通常将 KL 散度显式地加在损失函数上。如果你计划复现相关实验，建议优先直接采用论文中报告的 β/系数值及其配套的超参数（如批次大小、G、采样数、学习率等），因为这些参数之间往往是耦合的。

参考资料

[1] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
[2] Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

上一篇：Meta SAM-Audio多模态AI音频分割模型开源：基于Prompt提示精准提取声音
下一篇：本科程序员五段实习进阶指南：从初创公司到腾讯大厂的成长路径

强化学习, KL散度, PPO, DPO, 大模型训练

强化学习KL散度系数详解：从PPO到DPO与GRPO的实践配置指南

核心总结

重要补充说明

参考资料

相关帖子