找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1426

积分

0

好友

208

主题
发表于 6 天前 | 查看: 15| 回复: 0

在多篇重要的技术文献中,都明确提及了相关参数的设置,现将其罗列如下,为实际应用提供参考。

  1. OpenAI — InstructGPT / PPO-RLHF (Ouyang et al., 2022)

    • 典型/推荐值(论文实测结论):KL reward coefficient ≈ 0.01–0.02(最优区间)。论文还展示了在 1e-4…1 范围的参数扫描(sweep)结果,并指出数值过大(如 2.0)会导致验证回报下降,且无法修正某些性能回归问题。
      OpenAI PPO-RLHF KL系数范围图示
  2. DPO — Direct Preference Optimization (Sanh et al., 2023)

    • 在论文的实现细节(Appendix B)中给出的默认/实践值为:β = 0.1;针对 TL;DR 文本摘要实验则使用了 β = 0.5。论文同时强调,β 参数直接控制着KL散度的约束强度,若移除或设置不当将导致模型性能退化(附录中包含相关代码片段与说明)。
    • 说明:DPO 方法将 β 直接作为温度/权重参数,纳入其隐式奖励(implicit reward)的对数比重计算中,因此 β 即为隐式的 KL 强度控制量。
      DPO方法中β参数的作用图示
  3. DeepSeek / GRPO — DeepSeekMath (Shao et al., 2024) & DeepSeek-R1

    • DeepSeekMath(提出并应用 GRPO 的技术报告)在其强化学习实验部分明确指出:GRPO 的 KL coefficient = 0.04(此为 DeepSeekMath RL 实验的具体设定)。报告说明 GRPO 将 KL 散度直接添加到损失函数中(而非作为奖励的一部分),并使用无偏估计器进行计算。
    • DeepSeek-R1 的后续技术报告在不同训练阶段对 KL 系数也有相应设置(部分公开材料提及了更小的数值,如 0.001),但 GRPO 原始文献中最直接可查的实验超参是 DeepSeekMath 文档中的 0.04。
    • 出处:DeepSeekMath 文本段落明确给出 KL = 0.04;DeepSeek-R1 中也有训练细节,但数值会随阶段/配置变化。
  4. Qwen 系列(Qwen2.5-Math 等,阿里技术报告)

    • 在 Qwen2.5-Math 的技术报告中,后训练(post-training)/ 强化学习段落明确写道:“KL coefficient for all training is 1×10⁻³(= 0.001)”(用于其 GRPO/RL 阶段的超参数)。文档同时描述了使用 GRPO 与奖励塑形(reward-shaping)的具体实现细节。
    • 备注:技术报告通常将该 KL 系数与采样组大小、批次大小等其他超参一同列出(可在 Post-training / Implementations 相关段落查询)。
    • 出处:Qwen2.5-Math technical report。

核心总结

  • OpenAI (InstructGPT / PPO-RLHF):≈ 0.01–0.02(论文给出的最优区间)。
  • DPO (论文实现):默认 β = 0.1;TL;DR 实验 β = 0.5(参见附录)。
  • DeepSeek (DeepSeekMath / GRPO)KL = 0.04(DeepSeekMath 实验设定);DeepSeek-R1 在某些训练阶段/配置也报告过不同值(如 0.001),需查看具体阶段配置。(arXiv[1])
  • Qwen2.5-MathKL = 0.001(1e-3)(技术报告中明确写明)。(arXiv[2])

重要补充说明

  • 不存在“万能”数值:各篇论文均反复强调需要对 KL(β)系数进行调优。数值过小会导致模型过度偏离参考模型(reference model),引发灾难性性能退化或失控(overoptimization);数值过大则会抑制奖励信号的优化,导致训练回报下降或无法有效改善目标指标。各大研究团队均进行了参数扫描与权衡分析,并报告了相关性能曲线。
  • 方法差异:DPO 等方法将 KL 散度隐式地包含在目标参数化中(例如 DPO 的 β 在损失函数/对数比中即代表隐式的 KL 约束强度),而 GRPO 通常将 KL 散度显式地加在损失函数上。如果你计划复现相关实验,建议优先直接采用论文中报告的 β/系数值及其配套的超参数(如批次大小、G、采样数、学习率等),因为这些参数之间往往是耦合的。

参考资料

[1] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
[2] Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement




上一篇:Meta SAM-Audio多模态AI音频分割模型开源:基于Prompt提示精准提取声音
下一篇:本科程序员五段实习进阶指南:从初创公司到腾讯大厂的成长路径
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-24 20:52 , Processed in 0.194252 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表