找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3765

积分

0

好友

517

主题
发表于 8 小时前 | 查看: 3| 回复: 0

InfoQ品牌标志与标语

随着大模型与智能体(Agent)技术的快速发展,强化学习(RL)正成为提升AI智能体自主决策能力的关键引擎。然而,传统的RL训练方法面临计算成本高、数据需求大、系统复杂度高等挑战,限制了Agent的规模化落地。

本文整理自清华大学交叉信息院助理教授、博士生导师,前OpenAI研究员吴翼博士在2025年QCon全球软件开发大会(上海站)的分享。他在演讲中重点介绍了针对Agent模型的强化学习训练系统AReaL及其在Agent场景下的最佳实践,通过真实数据和案例,展示了AReaL如何帮助开发者和企业高效构建智能体系统。

核心观点:为什么Agent与RL如此重要?

我一直在从事强化学习及智能体相关的研究。今天分享的核心是两个观点:

  • Agent是AGI未来5年最重要的事。
  • 强化学习是Agent的技术关键。

我希望通过接下来的内容,让大家对这两个观点有更深刻的理解。

1 AReaL团队的使命:用强化学习打造强大Agent

让我们先从强化学习说起。很多人对它的了解始于AlphaGo,后来OpenAI在DOTA等游戏中也利用强化学习取得了显著成果。然而,这些早期应用大多集中在游戏领域。这引发了一个思考:在大模型驱动的AGI时代,强化学习与大模型之间究竟有什么样的联系?

事实上,两者的关系在2020年后才变得紧密。最初的大模型(如GPT-3)存在“指令遵循问题”,它擅长预测下一个词,却难以精准执行复杂指令。这个问题的转折点是2022年InstructGPT模型采用的“人类反馈强化学习”(RLHF),它通过人工标注训练奖励模型,优化模型输出以符合人类意图。ChatChatGPT的划时代成功,正是基于此项技术。

技术演进并未停止:

  • 2024年,推理模型时代:以ChatGPT o1和DeepSeek R1为代表,其核心是“推理强化学习”(Reasoning RL)。模型通过生成大量“思考”token进行自主探索,提升答案准确性。
  • 2025年,智能体模型时代:迎来了“Agent RL”技术。这类模型不仅能思考推理,还能调用搜索引擎、浏览器等外部工具,甚至在虚拟环境中操作文件(如ChatGPT的Deep Research功能、Minus产品)。

审视AI发展趋势,从产品角度看有两个显著变化:

  1. 交互方式简化:用户从需要提供冗长、详细的Prompt,逐渐转变为只需给出简洁、抽象的指令。
  2. AI能力拓展:AI的输出从简单的文本回答,转变为能够主动采取行动,在数字环境中自主完成复杂、长期的任务(如批改200份作业)。

未来的理想状态是,用户只需说“帮我把这个搞定”,AI就能理解并执行。这背后要求AI能处理模糊的个性化需求,并具备主动规划能力。我们团队的核心目标,正是希望通过强化学习,在智能体技术的前沿打造出卓越的模型、服务和产品。

在AGI时代,团队的特质至关重要。我们看到OpenAI等团队的案例显示,成功的产品往往源自小团队在极短周期(数周)内完成的快速原型与迭代。这意味着,一个能够充分整合AI技术栈、实现快速创意原型化的团队,更有可能在快速变化的竞争中脱颖而出。

2 Agent为什么需要强化学习?以ASearcher为例

有人会问:现在已有许多智能体框架(如CoZe、LangChain),通过拖拽就能搭建工作流,为什么还需要强化学习?

我认为,核心在于智能体面临的复杂挑战,仅靠固定规则难以解决。主要有三个问题:

  1. 处理不确定性和冲突信息:现实世界中信息常常矛盾,智能体需要进一步收集和判断,而非简单遵循预设规则。
  2. 具备长期记忆和个性化能力:用户的深层偏好(如“想吃清淡的”但“不喜欢蔬菜”)需要从大量历史交互中挖掘,难以用规则概括。
  3. 面对海量工具/模型时的自主决策:不同大模型各有优劣,最佳实践可能是让智能体自主探索最优的调用组合策略,而非依赖人工编写规则。

此外,在线强化学习(Online RL)也是一个重要趋势,它允许产品上线后通过持续交互自我迭代与优化,尽管这对数据要求极高。

如何解决这些挑战?我们希望通过强化学习,让智能体在特定环境中自主探索,从而涌现出强大的泛化能力。一个具体的例子是我们团队开源的搜索智能体项目——ASearcher。

ASearcher的任务很简单:用户提问,它搜索并回答。但即使简单如“伦敦奥运会中国获得了多少枚金牌?”的问题也隐藏复杂性。实际答案是39枚(因后续兴奋剂违规,中国选手递补获得1金),而非最初报道的38枚。

我们测试发现,ChatGLM和DeepSeek回答38枚,ChatGPT发现了39枚的线索但仍倾向于38枚。只有开启了Agent模式的ChatGPT给出了正确答案。这说明,若要开发专业搜索产品,通过固定工作流搭建可能需要极其复杂的多智能体系统(搜索、核查、验证等模块),难以维护。

而采用强化学习方法的ASearcher,仅包含“搜索”和“网页点击”两个工具。通过强化学习训练,它能在环境中自主探索以验证信息。在我们的测试中,ASearcher经过多轮搜索和数十次操作,最终确认了正确答案是39金。数据显示,通过强化学习训练的32B模型在多个基准测试中准确率提升了20%到30%,并展现出强大的泛化能力,甚至超越了一些商用产品。

总结来说,强化学习为智能体带来了两大好处:一是简化了复杂的工作流设计,二是让模型涌现出复杂的多步推理能力

3 Agent RL的核心难点与AReaL团队的解决方案

要做好智能体强化学习,我们认为必须在三个方面下功夫:基础设施与算法、数据、环境。因为Agent RL存在几个痛点:训练速度慢、训练数据稀缺、构建Sandbox环境工程挑战大。

我们致力于从全栈角度解决这些问题。

首先,基础设施与算法:为什么速度慢?
强化学习的流程涉及三个步骤:环境交互生成数据、奖励模型计算奖励、训练模型。这背后是三种截然不同的计算模块(如SFT微调、推理、数据清洗),它们被强化学习算法动态串联,形成了一个复杂的系统编排问题。

这种复杂性带来了“系统与算法协同设计”的机遇。AReaL首先解决了速度慢的问题。在搜索智能体场景中,由于每次搜索都可能耗时,且强化学习鼓励长轨迹探索,导致单个批次数据收集可能长达1-2小时,GPU/CPU资源大量闲置。

AReaL的解决方案是让推理过程不再等待。我们采用异步方式,让部分计算卡持续推理,另一部分负责训练,推理时参数异步更新。这种协同设计在搜索智能体场景中实现了5倍的训练速度提升,充分利用了计算资源。

其次,训练数据问题。
强化学习数据依赖合成。正常用户的问题往往简单,但测试时却会遇到复杂难题。我们缺乏足够复杂的训练样本来教会模型应对。

在ASearch项目中,我们开发了一种“智能体式”的合成数据方法:从网页抓取答案,反向构造复杂问题,并自动评估问题难度与匹配准确性,确保生成难度适中的训练数据,推动模型持续优化。相关代码和脚本已开源。

最后,关于环境。
构建一个稳定、可扩展的Sandbox环境本身就是巨大的工程挑战。我们还有开源项目AWorld,未来也会考虑开源更多相关项目,助力智能体训练。

4 回顾、经验与展望

我们团队从2021年投身于此,经历了多智能体框架、大规模游戏RL分布式训练框架、最快的RLHF框架,到2024年专注于智能体强化学习的AReaL项目。有趣的是,2025年的Agent RL与多年前的游戏RL场景非常相似:模型在“玩”浏览器或电脑这个“黑盒游戏”,环境运行慢且不可修改。

在技术开发中,我们总结出两点重要经验:

  1. 技术需要在合适的时间被感知:2022年前,强化学习技术很难被大众广泛感知。
  2. 技术需要通过优秀的产品来承载:没有ChatGPT、推理模型、智能体模型这些产品,强化学习的价值难以充分体现。

因此,技术一定要产品化。我们希望最终能开发出支持智能体和在线强化学习的优秀产品。

技术的最终目的是解决实际问题,创造价值。希望本次关于AReaL框架与智能体强化学习实践的分享,能为你在云栈社区探索AI与Agent技术的道路上带来一些启发。我们相信,通过强化学习释放智能体的潜力,将是推动AGI向前发展的关键一步。




上一篇:AI Agent颠覆软件采购?900亿风投前瞻行业变革与Cursor挑战
下一篇:信息论视角解析大模型原理:从香农到语义信息论与定向信息
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-5 17:55 , Processed in 0.465120 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表