找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2049

积分

0

好友

285

主题
发表于 前天 01:20 | 查看: 10| 回复: 0

NVIDIA的一项新研究GDPO,针对多奖励强化学习训练中的信号压缩问题,提出了一种改进方案,旨在让模型更精准地学习复杂的人类偏好。

核心方法与创新

传统的GRPO方法在处理多奖励目标时,会将所有奖励的加权和作为一个整体进行归一化。GDPO的研究团队发现,这种做法会导致一个关键问题:信号压缩。不同组合的奖励在经过归一化后,可能被压缩为相似的“优势值”,使得模型难以区分这些组合之间的细微差别,从而影响学习效率。

为了解决这个问题,GDPO的核心思路是 “奖励解耦归一化” 。具体包含以下关键方法:

  1. 奖励解耦归一化:不再对奖励总和进行归一化,而是对每一个单独的奖励项分别进行分组归一化。这样做可以保留每个奖励维度内部的相对差异,使模型能够更敏感地捕捉到不同奖励组合带来的细微信号变化。
  2. 批次级优势归一化:在计算用于策略优化的优势值时,进行批次级别的归一化处理。这确保了数值范围的稳定性,不会因为奖励项数量的增加而出现波动。
  3. 灵活的奖励权重调整:通过引入可调节的权重参数和条件化奖励函数,研究者和开发者可以灵活控制不同偏好(如准确率、格式、长度等)的优先级,实现对模型行为的精细调控。

实验效果验证

在具体的任务测试中,GDPO展现出了明显的优势:

  • 工具调用任务:与基线方法相比,正确率提升约5%,输出格式合规率提升约4%,同时将格式错误率显著降低至80.66%。
  • 数学推理任务:在AIME数据集上的准确率提升了3%,并且成功将答案长度超限率从2.1%大幅降低至0.2%。

这些实验结果表明,通过解耦奖励信号的归一化处理,GDPO能够更有效地在多目标约束下进行强化学习训练,帮助模型在满足各项指标的同时,达成更好的综合性能。

该研究论文题为《GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization》。在多奖励RL的实际应用中,如何平衡例如“准确率”与“格式/长度约束”这类有时相互竞争的目标,始终是一个值得深入探讨的挑战。




上一篇:Spring Boot 4.0 原生API版本控制实践:告别手动路由,拥抱配置化管理
下一篇:Rerank在企业级AI系统中的角色:超越排序,构建Agent决策风险控制层
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-14 15:54 , Processed in 0.222979 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表