NVIDIA的一项新研究GDPO,针对多奖励强化学习训练中的信号压缩问题,提出了一种改进方案,旨在让模型更精准地学习复杂的人类偏好。
核心方法与创新
传统的GRPO方法在处理多奖励目标时,会将所有奖励的加权和作为一个整体进行归一化。GDPO的研究团队发现,这种做法会导致一个关键问题:信号压缩。不同组合的奖励在经过归一化后,可能被压缩为相似的“优势值”,使得模型难以区分这些组合之间的细微差别,从而影响学习效率。
为了解决这个问题,GDPO的核心思路是 “奖励解耦归一化” 。具体包含以下关键方法:
- 奖励解耦归一化:不再对奖励总和进行归一化,而是对每一个单独的奖励项分别进行分组归一化。这样做可以保留每个奖励维度内部的相对差异,使模型能够更敏感地捕捉到不同奖励组合带来的细微信号变化。
- 批次级优势归一化:在计算用于策略优化的优势值时,进行批次级别的归一化处理。这确保了数值范围的稳定性,不会因为奖励项数量的增加而出现波动。
- 灵活的奖励权重调整:通过引入可调节的权重参数和条件化奖励函数,研究者和开发者可以灵活控制不同偏好(如准确率、格式、长度等)的优先级,实现对模型行为的精细调控。
实验效果验证
在具体的任务测试中,GDPO展现出了明显的优势:
- 工具调用任务:与基线方法相比,正确率提升约5%,输出格式合规率提升约4%,同时将格式错误率显著降低至80.66%。
- 数学推理任务:在AIME数据集上的准确率提升了3%,并且成功将答案长度超限率从2.1%大幅降低至0.2%。
这些实验结果表明,通过解耦奖励信号的归一化处理,GDPO能够更有效地在多目标约束下进行强化学习训练,帮助模型在满足各项指标的同时,达成更好的综合性能。
该研究论文题为《GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization》。在多奖励RL的实际应用中,如何平衡例如“准确率”与“格式/长度约束”这类有时相互竞争的目标,始终是一个值得深入探讨的挑战。
|