找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

419

积分

0

好友

56

主题
发表于 昨天 00:27 | 查看: 4| 回复: 0

在当前人工智能浪潮中,多智能体系统(MAS)与强化学习(RL)的结合展现出巨大潜力。本文深入探讨了如何利用一种面向策略的强化学习新方法——AT-GRPO,来优化协作型大型语言模型(LLMs)的性能,特别是在处理复杂、长序列任务时的应用与效果。

研究背景

大型语言模型(LLMs)已在编程、科学推理等多个领域展现出卓越的决策能力。然而,在多任务协同环境中,如何有效组织并驱动多个LLM智能体,以实现更高的整体效率和准确性,仍是一个挑战。当前,多智能体系统与强化学习虽各自发展成熟,但二者的深度结合,尤其是在需要角色精细化分工的协作场景中,其训练流程优化与性能提升仍有大量研究空白。因此,开发一种新的、能够有效支撑MAS的强化学习算法至关重要,它能显著增强角色特定协作的有效性,并提升模型的泛化与决策精度。

研究方法

为解决上述问题,本文提出了AT-GRPO(Agent- and Turn-wise Grouped Policy Optimization)算法。该算法包含两大核心部分:(i)专门针对多智能体系统设计的、基于智能体和回合分组的RL优化机制;(ii)支持单策略与多策略训练的灵活系统架构。

AT-GRPO采用了一种独特的分组比较方法:在每个决策回合,它将候选动作按相同角色相同回合进行分组,从而在组内实现更有效的优劣比较与策略梯度计算。在训练过程中,系统收集交互经验构建数据集,通过多次迭代优化,分别更新每个智能体的策略,从而强化模型间的协作效能。

图1 图1: AT-GRPO算法与传统单智能体GRPO的对比示意图,凸显其在复杂任务环境中的结构性优势。

研究结果

实验结果表明,AT-GRPO在长序列规划任务上表现尤为突出。其准确率从单智能体基线的14%大幅提升至96%至99.5%之间,充分体现了强化学习与多智能体系统结合的巨大威力。

此外,在需要多步决策推理的任务上,AT-GRPO也带来了显著提升。在编程和数学问题求解任务中,模型的平均性能提升率分别达到3.87%-7.62%和9.01%-17.93%。这一突破性进展表明,面向特定角色的策略训练有效增强了系统的专业化能力,并从机制上改善了传统模型的协作效率。

方法 游戏 规划任务 编码任务 数学任务
单智能体 7.00 5.00 11.60 13.40
单智能体+GRPO 29.00 11.00 18.80 16.70
MAS + AT-GRPO (角色专属策略) 99.00 96.00 20.90 39.60

表1: 不同方法在四类任务上的性能对比(数值越高越好)。

结论与展望

本文通过AT-GRPO算法,成功构建并验证了一种强化学习与多智能体系统深度结合的新范式,证明了其在多领域复杂任务中的显著效能。本研究目前聚焦于合作型任务并取得了成功,未来可进一步探索该方法在竞争性或混合型环境中的适应性,以及如何将这种角色特定政策训练范式扩展到更庞大、更复杂的环境与模型集群中。迈向多模态学习与大规模模型协同训练,将是发掘其更广泛应用潜力的关键方向。

📚 文献信息

  • 文献作者:Yujie Zhao, Lanxiang Hu, Yang Wang, Minmin Hou, Hao Zhang, Ke Ding, Jishen Zhao
  • 发表时间:2025-10-13
  • arxiv:arxiv.org/abs/2510.11062



上一篇:Speakmac本地语音输入工具评测:Mac用户释放双手的效率利器
下一篇:FPGA芯片市场迎来变革:AI加速、航天电子与机器人如何驱动其价值重塑
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-8 23:42 , Processed in 0.075787 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表