在 QCon AI NYC 2025 大会上,来自 OpenAI 的 Will Hang 详细介绍了 Agent RFT(强化微调)技术,这是一种专为提升工具调用型智能体性能而设计的强化学习方法。
从提示优化到模型微调的演进路径
Hang 首先强调了一条务实的改进路径:在修改模型权重之前,应优先进行提示词和任务优化。具体措施包括简化需求描述、添加防护栏以避免工具误用、改进工具描述文档,以及优化工具输出格式,使智能体能够做出更准确的后续决策。他指出,这些措施通常能带来显著效果,但在需要跨多步工具交互进行一致推理的任务上会遇到瓶颈。

微调技术的选择策略
Hang 将微调方案定位为一个技术光谱。监督微调适用于输入输出映射关系明确、目标是模仿特定风格或结构的场景。偏好优化通过成对比较将输出引导至首选响应,OpenAI 的直接偏好优化(DPO)指南将其描述为通过比较模型输出进行微调,目前仅支持文本输入输出。
而强化微调更适合需要模型在较长决策轨迹中探索策略的任务,而非简单复现单一演示模式。
警惕奖励黑客攻击!务必解决评分器中的边界情况。连续奖励比二元奖励效果更好。—— Will Hang, OpenAI
Agent RFT 核心机制
Agent RFT 是针对工具调用型智能体优化的强化微调方案。在训练过程中,模型会探索不同策略,并从自定义评分器获得学习信号。OpenAI 文档将其描述为:采样候选响应、使用自定义评分器打分、基于分数更新模型的循环过程。
Hang 强调了全轨迹信用分配的重要性,使得早期决策(包括工具选择和工具调用结构)能够根据下游结果得到强化或抑制。他将智能体定义为能够通过工具与外部世界交互的系统,而不仅仅是响应用户提示。

工具生态与评分器设计
Hang 列举了多种工具应用场景:编码智能体使用的终端、客服系统调用的内部业务接口、文档搜索或检索端点等。他强调工具输出会回流到同一上下文窗口,因此工具调用、工具输出、推理令牌和最终响应构成了单一的多步决策轨迹。
评分器成为工作流中的核心组件。会议介绍了多种评分方式:简单匹配器、基于模型的判断器、代码评分器、端点评分器,以及组合评分器以同时优化准确性和延迟。
优化运营指标
除了答案准确性,会议还关注其他运营属性。Hang 展示了如何使用 Agent RFT 减少不必要的工具调用、强制执行工具调用预算,以及减少超长轨迹的长尾分布,这些长轨迹会导致不可预测的延迟和用户体验下降。演示幻灯片显示,训练过程中推理令牌和工具调用数量逐步减少,证明智能体能够学会用更少步骤达到相似或更好的任务结果。
实战案例分享
随后,Wenjie Zi 接续演讲,分享了实际应用案例和平台配置细节。其中一个金融场景案例展示了模型如何在工具调用预算受限的情况下,跨大型文档库定位相关内容。在该场景中,智能体使用端点暴露的搜索、列表和文件读取工具,然后由评分器对最终答案打分。她强调即使对数值答案也使用基于模型的评分器,以减少因格式差异、单位或微小变化导致的误判。

Zi 还介绍了智能体编码等更广泛的应用领域,重点关注具有大量工具、隔离执行上下文以及平衡正确性与过程效率的奖励设计的环境。报告的成果包括改进的规划能力、减少的长轨迹尾部,以及在某些情况下转向并行工具调用以减少顺序轮次。
想要深入了解 Agent RFT 技术的开发者,可以查阅 OpenAI 的强化微调和模型优化文档,并关注 infoq 获取即将发布的演讲视频。
|