找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5086

积分

0

好友

692

主题
发表于 昨天 19:31 | 查看: 8| 回复: 0

发现你感兴趣的论文

大语言模型驱动的长程(Long-horizon)智能体(Agent)在与环境进行多轮交互时,常常会陷入一个困境:性能越用越慢,稳定性越用越差。这是因为历史交互轨迹会不断累积,导致上下文(Context)线性膨胀。这不仅会带来高昂的Token成本,还可能触发“中间迷失”(Lost in the Middle)效应,最终导致模型性能和稳定性持续下滑。

目前的主流解决方案大多依赖外置记忆库结合RAG技术,被动地检索与当前查询相似的历史片段。但这种方式存在一个根本问题:检索到的“相似”内容,并不等同于对完成最终任务“最关键”的信息。这种记忆管理方式难以与任务目标进行端到端的联合优化,使得Agent和记忆库更像是各自为政的独立模块。

同时,一些基于强化学习改进Agent记忆管理的方法,也往往缺乏一种有效的机制来引导和优化记忆内容本身的质量。那么,我们能否让Agent在交互过程中自主地组织历史信息,并通过强化学习来优化记忆的信息质量,使其最终与任务目标对齐呢?

Agent多轮交互决策过程示意图

来自通义实验室和清华大学的研究团队提出的 MemPO(Self-Memory Policy Optimization) 提供了一种新的思路。该方法让模型能够对记忆(Memory)进行自我管理,并引入了基于有效信息含量的记忆层级优势估计,从而引导记忆保留对解决任务更有价值的信息,显著提升了记忆的有效性。

实验结果显示,在长程任务基准上,MemPO的F1分数最高提升了25.98%(相较于基线模型)和7.1%(相较于SOTA方法),同时Token使用量下降了67.58%和73.12%。

MemPO论文标题页

论文标题:MemPO: Self-Memory Policy Optimization for Long-Horizon Agents
论文地址https://arxiv.org/abs/2603.00680
代码地址https://github.com/TheNewBeeKing/MemPO
模型和数据集地址https://huggingface.co/collections/NewBeeKing/mempo

核心痛点:上下文膨胀与被动记忆

长程多轮交互正日益成为LLM Agent解决复杂问题的关键能力。为了缓解由此带来的长上下文压力,许多研究开始为Agent引入记忆模块。

当前的主流方法是外置记忆库加RAG检索,即根据相似度从历史中召回片段,再拼接到提示词中。这种方式的核心问题在于,检索“相似”不等于检索到“对任务最关键”的信息,难以与最终任务目标进行端到端的联合优化。这导致记忆管理更像是一个被动的流水线操作,而非模型内生的、可学习的能力。

也有一些工作尝试用强化学习来改进Agent能力,但在“记忆”这个具体问题上仍存在局限:要么将记忆管理设计为独立的工具或组件,没有与回答、推理的策略共同优化;要么虽然将记忆融入了推理流程,却缺少针对记忆内容质量的显式优化目标,训练信号仍然主要来自最终的任务回报。

在长程交互中,奖励信号稀疏,信用分配困难。模型很难学清楚“到底是哪一步写入的记忆质量好或坏”最终影响了任务的成败,这容易导致记忆内容冗余或遗漏关键信息。

因此,MemPO的核心目标不仅是“用强化学习训练Agent”,更是要为记忆本身设计可学习、可归因的优化信号,让模型在交互过程中主动地压缩、组织并保留最有助于任务完成的信息。

MemPO:引入记忆层优势估计,引导记忆保留有效信息

MemPO采用多轮强化学习框架。在采样阶段,模型与外界进行多轮交互,在每一轮交互中,模型都会基于历史上下文生成记忆。

在计算优势函数时,MemPO采用两类优势估计相结合的方式来得到最终结果。

全局轨迹优势用于衡量整个交互轨迹的准确性,其奖励基于答案准确性和格式准确性进行计算:

$$ G^T = \{ (\tau_1, R^T(\tau_1)), (\tau_2, R^T(\tau_2)), ..., (\tau_N, R^T(\tau_N)) \}. $$

此部分的优势估计可以表示为:

$$ A^T(\tau_i) = \frac{R^T(\tau_i) - \text{mean}(\{R^T(\tau_j)\}_{j=1}^N)}{\text{std}(\{R^T(\tau_j)\}_{j=1}^N)}. $$

信息性记忆优势则用于衡量每一段生成的记忆中,保留了多少对于解决问题真正有效的信息。

其奖励通过“在已知记忆内容的情况下,模型生成最终正确答案的后验概率”来表示:

$$ R^M(\tau_i(s_t^{mem})) = P[s^{ans} | \tau_i(s_t^{mem})] - \epsilon, \quad 1 \le i \le N, 1 \le t \le T. $$

其中,后验概率具体由正确答案各个Token概率的几何平均来表示:

$$ \sqrt[L]{\prod_{l=1}^{L} \pi_\theta(a_l | q, \tau_i(s_t^{mem}), a_{<l})}. $$

此部分的优势估计可以表示为:

$$ A^M(\tau_i(s_t^{mem})) = \frac{R^M(\tau_i(s_t^{mem})) - M(\tau_i(s_t^{mem}))}{\text{std}\{R^M(\tau_i(s_t^{mem}))\}}. $$

通过这种方式,模型在训练过程中就能根据奖励反馈,学习到什么样的记忆内容对于解决最终问题更加有效,从而极大地缓解了记忆内容的不可控性和盲目性。

最终,整体的优势估计可以表示为:

$$ A_{i,k} = \begin{cases} A^T(\tau_i) + A^M(\tau_i(s_t^{mem})), & \tau_{i,k} \in \tau_i(s_t^{mem}) \\ A^T(\tau_i), & \text{otherwise}. \end{cases} $$

实验结果

在多目标的网页搜索数据集上,与基础的ReAct、Agentic-RL模型以及基于RAG/RL的记忆算法相比,MemPO均取得了显著的SOTA性能。其中,Token消耗降低至ReAct方法的约三分之一,同时性能提升了近三倍。

Local Wiki Search与Online Web Search实验结果对比表
主实验结果

MemPO在提升样本正确答案条件概率的同时,也显著增加了预测结果的准确率。在复杂的长程交互任务上,MemPO显著提升了交互轮次与正确答案条件概率之间的正向关联。

正确答案条件概率分桶分析图
正确答案条件概率分桶样本数量分布(Ratio)与准确率(ACC)

交互轮次分桶分析图
交互轮次分桶样本数量分布(Ratio)与正确答案条件概率(Probability)

随着任务复杂度提升,MemPO相比基线方法GRPO展现出更明显的优势。实验还发现,对于较为简单的任务,模型需要更丰富的上下文信息;而在更为复杂的长程交互任务上,过多的历史交互上下文反而会引入干扰信息,导致性能下降。

消融实验分析图
消融分析:MemPO vs. GRPO (左) / 推理时历史上下文填充策略(右)

总结

MemPO将记忆变成了一个可训练的策略变量,与模型的思考(Think)和行动(Action)进行联合优化。

通过把“书写记忆”这一行为纳入强化学习的信用分配链路,MemPO解决了长程交互中的一个关键难点——让模型能够判断哪些中间信息值得占用宝贵的上下文预算,而哪些噪声信息应该被主动丢弃。

最终,这使得Agent的上下文更短但信息密度更高,工具调用与最终回答更不容易偏离正轨,同时实现了成本下降与性能提升的双重收益。

这也意味着,未来对于长程Agent记忆的研究,关注点可能会从“如何更好地检索历史”逐渐转向“能否利用学习机制持续产出高质量、可控的内生记忆”。对这类前沿人工智能技术感兴趣的开发者,欢迎在云栈社区交流探讨。




上一篇:大模型潜在空间综述:LLM/VLM架构新范式、机制与能力全景解读
下一篇:HBM内存需求引爆韩国半导体薪酬内战,三星工会威胁罢工
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-23 02:47 , Processed in 0.654218 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表