云栈社区»论坛 › 站务中心「 Forum Service 」 › AgentRL 长程任务难题：端到端解决率为何断崖衰减？ ...

发回帖发新帖

5303 积分	0 好友	720 主题

发消息

AgentRL 长程任务难题：端到端解决率为何断崖衰减？

发表于 1 小时前 | 查看: 3| 回复: 0

真实业务场景下，多轮交互式 Agent RL 从 Demo 走向 Scaling，最棘手的问题莫过于长程任务（Long‑horizon tasks）上端到端解决率的断崖式衰减——单纯堆算力或增加交互步数很难扭转。

本文尝试拆解长序列任务中各类可能的原因，介绍值得参考的思路与论文，并分享一些工程实践上的 trick。考虑到该领域仍在快速演进，这里抛砖引玉，期待后续更多的补充。

01 长程任务的端到端难度

即便先不谈 RL 或训练，普通 Agent 架构在长程问题下的基线性能就已相当脆弱。

以 N 步 ReAct 范式的 Agent 为例：假设单轮正确率 95%，且各轮独立同分布，那么端到端成功率会随步数急剧下滑——N=10 时仅剩 60%，N=50 时更跌至 7%。现实中要更严峻，逐个审视 Agent 架构的假设：

独立性并不成立：Agentic RL 中步骤之间存在依赖，错误与幻觉在上下文中累积传播，容易让 Agent 偏离主线或持续积累错误直至崩溃。
后续轮次难以维持同等正确率：ReAct 模式本身对 token 消耗巨大。步数越多，有效信息密度越低，早期指令的权重随 token 增长而被稀释，正确率自然难以保持。
上下文窗口的实际有效长度：当前基础模型的标称 context window 和真正可用的记忆窗口仍有差距。VLA 或 GUI 场景下的高频视觉输入会加重冗余。
输出稳定性的考验：模型输出具有概率性，单步正确不等于稳定输出。若我们说的单步正确率是 pass@1，鲁棒性可能不足，还需要 verifier 来提升单步可靠度——否则 95% 的 pass@1 也不等于稳定。

当然，这只是直观推演。很多复杂任务（如 DeepResearch）本身留有冗余和试错空间，并非每一步都需精确无误，但核心难题并未消失。

02 Agentic RL 的长程痛点

Agentic RL 中，长序列任务不仅要面对 Agent 架构本身的瓶颈，还要叠加 RL 学习机制带来的挑战，可从两方面看：

理论层面：

奖励稀疏且延迟：任务越长探索空间越大，outcome reward 很难及时有效地激励。
信用分配不平衡：长程行为的权重被均摊或衰减，算法难以实现真正局部的有效 Credit Assignment。

工程层面：

MoE 激活偏差：长程任务下，MoE 模型训练与推理时激活 gate 的不一致性 Gap 会被放大并累积，导致训练更不稳定。
Off‑policy 的工程折衷：长尾效应使训练效率下降，长样本更容易被分解、截断、分开推理，导致有效样本稀缺；或因策略版本更新使 Off‑policy 性质增强，最终梯度估计更不准，训练陷入不稳定。

03 优化长程问题是个系统工程

缓解上下文增长：Context Manager

直观的工程思路是利用 Context Manager 简化步骤或压缩序列，本质是对 memory 的各种 trick 再做一次迁移。

经典策略：

压缩 CoT：长/短/空 CoT 混合训练，或引入类似 KIMI 的过度思考惩罚。
滑窗机制：仅保留最近几轮的 Obs & Results。
记忆剪枝：摒弃纯粹的 Append‑only，引入 Working Memory 与 Episodic Memory，每隔 K 步生成 State Summary 来替换原始对话历史。
文件外挂：类似 Manus 的做法，将较长输出 Offload 到 Notebook 或文件，建模为工具调用而不占用 Prompt Token（AgentMem, FoldGRPO 等）。

但要注意，所有修改会话历史的操作本质上都改变了序列的概率分布，可能导致训练梯度不准，引入新问题。

训练效率、稳定性与样本稀缺

之前在 AgentRL：工业级 Agentic RL 训练对比选型指南中分析过同步与异步模式的折衷，两种模式都会导致长样本相对稀缺：

同步模式：若设置较高轮次上限，Long‑horizon trajectory 会严重拖慢整体 Rollout 速度；若设置较低，最有价值的长轨迹又会被截断。除非通过精细调度（短任务打包、长轨迹预测优先），否则长样本在 Batch 中极其稀少。
异步模式：训推分离引发严重的 Off‑policy 问题。Long trajectory 被旧版本 Policy 采样的概率远高于 Short trajectory，极易导致训练不收敛；即使加入 staleness 控制，同样会造成长样本稀缺。

解决思路的核心还是长样本的推理提效（具体做法参见前述博客，不再重复），以便在权衡后仍能放大最大交互次数上限，获取更长的 trajectory。

此外，在长程任务中，Off‑policy 性质、训推框架差异等细节都会被进一步放大。RL 训练效果与稳定性的关键，往往隐藏在 Rollout 与 Train 的细微不一致中——无论是 MoE 还是 long trajectory 训练，都可追溯到训推引擎在参数、配置、FP16/BF16、tokenizer、MoE 专家激活等细节差异（更具体的可参考 https://fengyao.notion.site/off-policy-rl ）。相应的解决思路就是逐一对齐训推差异：在 MoE 上参考 R3（Rollout Routing Replay）记录回放、GSPO 等方法，降低概率分布层面的影响。

长程奖励稀疏与延迟

解决奖励稀疏的工程手段无非是各种形式的 Reward Engineering，今年各场景下想必已完成一轮遍历。核心思路包括：

引入中间奖励（PRM）：利用更强模型（如 GPT‑4）或人工标注数据训练 Reward Model，对 Agent 每一步进行 Verify。
场景先验：例如 Tool Use 的 AST 解析奖励、Coding 任务的单元测试奖励、Plan Milestone 奖励。
课程学习：类似 NTK 的思路，先通过短序列任务拿到有效奖励，再逐步放开任务复杂度、Context Windows 和 Turns 约束。

长程奖励分配

这一点尤其值得展开。当前 GRPO 在 Episode 级别进行归一化后再反推到每个 Token，在长短不一的 Batch 中存在几个明显问题：

Token/Turn 稀释：Long trajectory 的每个 Token/Turn 效用被长度稀释，在整 batch 中的权重反而不如 Short trajectory（明显不合理）。
关键步骤平均化：关键步骤与大量冗余步骤获得相同的奖励，等于吃大锅饭，无法形成有效激励；步数越多，这种现象越严重。GAE 在长序列下的高方差更会导致训练不收敛。
虚假的 PRM：虽然 PRM 奖励过程，但有些实现将其累加成 ORM 再平均分配，意味着并未真正对每个步骤和关键 token 给予区别对待。

主要的改进方向是在 Advantage Normalization 上加入长度感知的调整，例如：

奖励再分配：梯度计算时根据 PRM 对最终 ORM 的贡献重新平衡权重，或者仅奖励关键 token。
基于部分轨迹分组：若不同轨迹的 PRM 具有可比较性（如奖励的 milestone 重复），更合理的思路可能是按部分轨迹分组与计算，如 GiGPO（这会不会是 DQN state‑based value estimation 的文艺复兴？）。
长度自适应 Advantage Normalization：类似 DAPO 对 Token 级别长度正则化的思路，对 Turn 级别长度进行正则；或采用长度自适应 GAE（Length‑adaptive GAE）动态调整 λ。

对于更长的思维链，算法自动使用更大的 λ：
长度自适应GAE公式

确保早期推理步骤能收到来自最终奖励的反馈信号（VAPO 是基于 PPO 的改进，但思路可以借鉴）。

鲁棒性与自我纠错

Agent 自身也会导致长程任务的鲁棒性较差——任何一次偏离方向的轮次，都可能让任务进度完全丢失或意图理解彻底漂移。使用 vibe coding 时或许深有体会：一旦某轮崩坏，后续越说越离谱，只好另起炉灶（这确实不好解决，所以 TRAE 的工程实践直接建议大家多 commit、多开新对话）。

实践中发现，长程问题的大部分 badcase 可归结为首轮出错。这可能与具体场景有关，也可能具有共性特征：

首轮仍处在理解意图/规划阶段，错误的调用或搜索方向往往意味着用户意图不清晰、模型理解偏差、规划失误，更容易引发后续连环错误；
受 Attention 顺序影响，靠前或靠后位置的文本通常具有较高权重，首轮与前一轮的错误返回对下一轮影响最大；
首轮出错容易导致随后连续几轮陷入推测与试错，轨迹越来越难回到正轨。

一些简单有效的工程技巧包括：错误轨迹剪枝、模拟环境优化、意图复述以缓解意图偏移、纠错负样本合成。

04 有限的游戏与无限的游戏

James Carse 在《有限与无限的游戏》中写道：“有限的游戏，其目的在于赢得胜利；无限的游戏，却旨在让游戏永远进行下去。”

前面讨论的种种长程问题，本质上都将 Agent 任务视作交互次数较长的有限游戏——总有一个最终的 verifiable episode reward，总有一个明确的意图，也总会有结束的时刻。当前 99% 的 Agent 任务确实是有限游戏，我们上述的工程技巧也都是在短任务思维上的迁移与缓解。

但真实世界果真如此吗？在 Minecraft 这样的开放世界中，在与豆包对话或情感陪伴里，在向 AI 寻求哲学思考或创意交互式探索时，在具身智能持续执行的 VLA 任务中，Agent 面对的更像是无限游戏——边界模糊且不断变化，规则随互动演变，没有终点。

这种差异意味着，无限游戏绝非有限游戏的叠加与组合，RL 的设计哲学或许也需要根本性的转变。在无限游戏中，若缺乏全局目标的指引，只把任务看作一系列阶段性目标的加和、分别优化战术层面，很容易“赢得战斗，输掉战争”。例如，把每一次对话当作一个 Episode，目标是让用户当下点赞，长期结果却是 Agent 变得谄媚、无法提供有效信息，最终用户厌烦。

当外部环境无法给出定义清晰、前后一致的反馈信号时，或许需要引入 Intrinsic Reward（内在奖励）——更多依靠自我反思、信息增益等多样化的内部奖励系统来驱动 Agent。无限游戏必须始终保持一定的 Exploration/Entropy 来应对 Env Distribution Shift，今天的最优解明天可能就是死路，目标不是当下的 reward maximization。

这同样是一个有趣且值得深思的方向。真正的 Long‑horizon 不仅仅是 Step 数的增加，更是世界观的维度跃迁——除了如何取胜，还有如何让交互持续产生价值，让这场游戏永远进行下去。

作者：乞力马扎罗雪人
来源：https://zhuanlan.zhihu.com/p/1996314343483130133

上一篇：Anthropic在线自然语言反馈新范式：模糊任务监督，10倍样本恢复100%性能
下一篇：Codex for Chrome上手实测：OpenAI这波务实得让人后背发凉

智能体强化学习, 长程任务, 大语言模型, Agent, ReAct