5050 积分	0 好友	688 主题

发消息

智能体强化学习实战：AReaL框架如何解决Agent复杂任务与训练效率难题

发表于 2026-3-5 08:59:33 | 查看: 62| 回复: 0

InfoQ品牌标志与标语

随着大模型与智能体（Agent）技术的快速发展，强化学习（RL）正成为提升AI智能体自主决策能力的关键引擎。然而，传统的RL训练方法面临计算成本高、数据需求大、系统复杂度高等挑战，限制了Agent的规模化落地。

本文整理自清华大学交叉信息院助理教授、博士生导师，前OpenAI研究员吴翼博士在2025年QCon全球软件开发大会（上海站）的分享。他在演讲中重点介绍了针对Agent模型的强化学习训练系统AReaL及其在Agent场景下的最佳实践，通过真实数据和案例，展示了AReaL如何帮助开发者和企业高效构建智能体系统。

核心观点：为什么Agent与RL如此重要？

我一直在从事强化学习及智能体相关的研究。今天分享的核心是两个观点：

Agent是AGI未来5年最重要的事。
强化学习是Agent的技术关键。

我希望通过接下来的内容，让大家对这两个观点有更深刻的理解。

1 AReaL团队的使命：用强化学习打造强大Agent

让我们先从强化学习说起。很多人对它的了解始于AlphaGo，后来OpenAI在DOTA等游戏中也利用强化学习取得了显著成果。然而，这些早期应用大多集中在游戏领域。这引发了一个思考：在大模型驱动的AGI时代，强化学习与大模型之间究竟有什么样的联系？

事实上，两者的关系在2020年后才变得紧密。最初的大模型（如GPT-3）存在“指令遵循问题”，它擅长预测下一个词，却难以精准执行复杂指令。这个问题的转折点是2022年InstructGPT模型采用的“人类反馈强化学习”（RLHF），它通过人工标注训练奖励模型，优化模型输出以符合人类意图。ChatChatGPT的划时代成功，正是基于此项技术。

技术演进并未停止：

2024年，推理模型时代：以ChatGPT o1和DeepSeek R1为代表，其核心是“推理强化学习”（Reasoning RL）。模型通过生成大量“思考”token进行自主探索，提升答案准确性。
2025年，智能体模型时代：迎来了“Agent RL”技术。这类模型不仅能思考推理，还能调用搜索引擎、浏览器等外部工具，甚至在虚拟环境中操作文件（如ChatGPT的Deep Research功能、Minus产品）。

审视AI发展趋势，从产品角度看有两个显著变化：

交互方式简化：用户从需要提供冗长、详细的Prompt，逐渐转变为只需给出简洁、抽象的指令。
AI能力拓展：AI的输出从简单的文本回答，转变为能够主动采取行动，在数字环境中自主完成复杂、长期的任务（如批改200份作业）。

未来的理想状态是，用户只需说“帮我把这个搞定”，AI就能理解并执行。这背后要求AI能处理模糊的个性化需求，并具备主动规划能力。我们团队的核心目标，正是希望通过强化学习，在智能体技术的前沿打造出卓越的模型、服务和产品。

在AGI时代，团队的特质至关重要。我们看到OpenAI等团队的案例显示，成功的产品往往源自小团队在极短周期（数周）内完成的快速原型与迭代。这意味着，一个能够充分整合AI技术栈、实现快速创意原型化的团队，更有可能在快速变化的竞争中脱颖而出。

2 Agent为什么需要强化学习？以ASearcher为例

有人会问：现在已有许多智能体框架（如CoZe、LangChain），通过拖拽就能搭建工作流，为什么还需要强化学习？

我认为，核心在于智能体面临的复杂挑战，仅靠固定规则难以解决。主要有三个问题：

处理不确定性和冲突信息：现实世界中信息常常矛盾，智能体需要进一步收集和判断，而非简单遵循预设规则。
具备长期记忆和个性化能力：用户的深层偏好（如“想吃清淡的”但“不喜欢蔬菜”）需要从大量历史交互中挖掘，难以用规则概括。
面对海量工具/模型时的自主决策：不同大模型各有优劣，最佳实践可能是让智能体自主探索最优的调用组合策略，而非依赖人工编写规则。

此外，在线强化学习（Online RL）也是一个重要趋势，它允许产品上线后通过持续交互自我迭代与优化，尽管这对数据要求极高。

如何解决这些挑战？我们希望通过强化学习，让智能体在特定环境中自主探索，从而涌现出强大的泛化能力。一个具体的例子是我们团队开源的搜索智能体项目——ASearcher。

ASearcher的任务很简单：用户提问，它搜索并回答。但即使简单如“伦敦奥运会中国获得了多少枚金牌？”的问题也隐藏复杂性。实际答案是39枚（因后续兴奋剂违规，中国选手递补获得1金），而非最初报道的38枚。

我们测试发现，ChatGLM和DeepSeek回答38枚，ChatGPT发现了39枚的线索但仍倾向于38枚。只有开启了Agent模式的ChatGPT给出了正确答案。这说明，若要开发专业搜索产品，通过固定工作流搭建可能需要极其复杂的多智能体系统（搜索、核查、验证等模块），难以维护。

而采用强化学习方法的ASearcher，仅包含“搜索”和“网页点击”两个工具。通过强化学习训练，它能在环境中自主探索以验证信息。在我们的测试中，ASearcher经过多轮搜索和数十次操作，最终确认了正确答案是39金。数据显示，通过强化学习训练的32B模型在多个基准测试中准确率提升了20%到30%，并展现出强大的泛化能力，甚至超越了一些商用产品。

总结来说，强化学习为智能体带来了两大好处：一是简化了复杂的工作流设计，二是让模型涌现出复杂的多步推理能力。

3 Agent RL的核心难点与AReaL团队的解决方案

要做好智能体强化学习，我们认为必须在三个方面下功夫：基础设施与算法、数据、环境。因为Agent RL存在几个痛点：训练速度慢、训练数据稀缺、构建Sandbox环境工程挑战大。

我们致力于从全栈角度解决这些问题。

首先，基础设施与算法：为什么速度慢？
强化学习的流程涉及三个步骤：环境交互生成数据、奖励模型计算奖励、训练模型。这背后是三种截然不同的计算模块（如SFT微调、推理、数据清洗），它们被强化学习算法动态串联，形成了一个复杂的系统编排问题。

这种复杂性带来了“系统与算法协同设计”的机遇。AReaL首先解决了速度慢的问题。在搜索智能体场景中，由于每次搜索都可能耗时，且强化学习鼓励长轨迹探索，导致单个批次数据收集可能长达1-2小时，GPU/CPU资源大量闲置。

AReaL的解决方案是让推理过程不再等待。我们采用异步方式，让部分计算卡持续推理，另一部分负责训练，推理时参数异步更新。这种协同设计在搜索智能体场景中实现了5倍的训练速度提升，充分利用了计算资源。

其次，训练数据问题。
强化学习数据依赖合成。正常用户的问题往往简单，但测试时却会遇到复杂难题。我们缺乏足够复杂的训练样本来教会模型应对。

在ASearch项目中，我们开发了一种“智能体式”的合成数据方法：从网页抓取答案，反向构造复杂问题，并自动评估问题难度与匹配准确性，确保生成难度适中的训练数据，推动模型持续优化。相关代码和脚本已开源。

最后，关于环境。
构建一个稳定、可扩展的Sandbox环境本身就是巨大的工程挑战。我们还有开源项目AWorld，未来也会考虑开源更多相关项目，助力智能体训练。

4 回顾、经验与展望

我们团队从2021年投身于此，经历了多智能体框架、大规模游戏RL分布式训练框架、最快的RLHF框架，到2024年专注于智能体强化学习的AReaL项目。有趣的是，2025年的Agent RL与多年前的游戏RL场景非常相似：模型在“玩”浏览器或电脑这个“黑盒游戏”，环境运行慢且不可修改。

在技术开发中，我们总结出两点重要经验：

技术需要在合适的时间被感知：2022年前，强化学习技术很难被大众广泛感知。
技术需要通过优秀的产品来承载：没有ChatGPT、推理模型、智能体模型这些产品，强化学习的价值难以充分体现。

因此，技术一定要产品化。我们希望最终能开发出支持智能体和在线强化学习的优秀产品。

技术的最终目的是解决实际问题，创造价值。希望本次关于AReaL框架与智能体强化学习实践的分享，能为你在云栈社区探索AI与Agent技术的道路上带来一些启发。我们相信，通过强化学习释放智能体的潜力，将是推动AGI向前发展的关键一步。

上一篇：AI Agent颠覆软件采购？900亿风投前瞻行业变革与Cursor挑战
下一篇：信息论视角解析大模型原理：从香农到语义信息论与定向信息

强化学习, AReaL, 智能体, AGI, 大模型训练