近日,一篇长达83页的学术综述《Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey》正式发布。该论文由来自UIC、IIT、斯坦福、谷歌、Meta等全球27家顶尖学术与工业机构的学者联合撰写,系统性地回顾与展望了基础智能体记忆机制的研究进展。

AI进入“下半场”,记忆成为关键基础设施

论文作者提出了一个核心观点:AI研究正经历一场深刻的范式转变。
- 上半场:重心在于追求模型架构的创新和在静态基准测试(如MMLU、MATH等)上获得高分。
- 下半场:焦点转向实际问题定义与真实世界效用评估,核心挑战在于如何在长期、动态、且高度依赖用户的环境中提供持续有效的服务。
“Memory emerges as the critical solution to fill the utility gap.”
(记忆成为填补理想基准与现实应用之间鸿沟的关键解决方案。)
三维统一分类框架
我们该如何系统地理解智能体记忆?这篇综述提出了一个从三个互补维度进行分析的统一框架。

1. 记忆基质:以何种形式存储
| 类型 |
定义 |
典型实现 |
优缺点 |
| 内部记忆 |
存储在模型权重、状态或KV缓存中 |
参数化知识、潜在状态、KV Cache |
优:访问快、与推理过程集成紧密;劣:更新昂贵、易发生灾难性遗忘 |
| 外部记忆 |
存储在向量索引、结构化存储或文本数据库中 |
RAG向量库、知识图谱、文本记录 |
优:易于扩展和更新;劣:存在检索延迟、可能引入噪声 |
2. 认知机制:如何发挥作用

| 记忆类型 |
功能 |
研究热度趋势 |
| 感觉记忆 |
短暂保留原始感知输入(如视觉/音频嵌入),供注意力机制筛选 |
2025年呈现快速增长(受多模态/具身智能驱动) |
| 工作记忆 |
临时存储和操作与当前任务相关的信息及中间状态 |
始终是研究的核心焦点 |
| 情景记忆 |
存储具体化的经验记录(内容、地点、时间及结果) |
2025年呈爆发式增长 |
| 语义记忆 |
存储稳定的抽象知识、事实和概念 |
保持稳步增长 |
| 程序记忆 |
存储可复用的技能、操作流程和工作流 |
新兴的研究热点 |
3. 记忆主体:为谁服务
- 用户中心记忆:存储用户的个人事实、约束条件、偏好和历史交互记录。
- 关键挑战:跨会话的对话记忆管理、长期个性化、隐私保护。
- 智能体中心记忆:存储智能体自身积累的经验、知识以及习得的启发式方法或技能。
- 关键挑战:支持长周期任务执行、积累领域特定解决方案、实现跨任务知识迁移。
记忆操作机制:从单智能体到多智能体

单智能体系统的五大核心操作
| 操作 |
功能描述 |
| 存储与索引 |
使用向量、结构化或文本格式组织信息,确保高效检索 |
| 加载与检索 |
过滤和排序相关记忆,将其注入到智能体的当前上下文窗口中 |
| 更新与刷新 |
动态修订或刷新记忆条目,以适应新信息或纠正错误 |
| 压缩与摘要 |
将详细的交互历史压缩为紧凑的摘要,以控制记忆的无限增长 |
| 遗忘与保留 |
移除过时或低价值数据,同时保留对长期推理有用的高价值知识 |
多智能体系统的特殊挑战与架构
| 架构类型 |
特点 |
代表工作 |
| 仅私有 |
每个智能体拥有完全独立的记忆,隔离性强但可能导致冗余 |
RecAgent, TradingGPT |
| 共享工作区 |
设置公共记忆池共享中间结果,需防范噪声干扰 |
MetaGPT, InteRecAgent |
| 混合架构 |
结合私有记忆层与共享记忆层,并实施访问权限控制 |
Collaborative Memory, MirrorMind |
| 编排式 |
由中央控制器(Orchestrator)协调所有智能体的记忆访问 |
ChatDev, MIRIX |
记忆学习策略:从提示工程到强化学习

论文将记忆管理策略的学习分为三个层次:
层次一:基于提示的学习
- 静态提示:依赖预定义的规则,例如MemGPT中分层的记忆管理指令。
- 动态提示:在测试时根据环境反馈动态调整提示策略,例如Reflexion中的自我反思机制。
层次二:微调参数化策略
- 利用监督数据对模型进行微调,将有效的记忆行为内化到模型参数中。
- 关键挑战在于:策略的稳定化、记忆操作的边界控制、检索的优化。
层次三:强化学习
- 步级决策:学习在每一步中何时存储、更新或删除记忆(如Memory-R1)。
- 轨迹级表示:学习如何压缩和摘要长交互轨迹的策略(如MemSearcher)。
- 跨回合记忆:积累可复用的策略,支持智能体的持续学习和进化。
评估体系:超越准确率的全方位度量

基准测试全景图
当前的评估基准主要分为用户中心与智能体中心两大类,覆盖了从纯文本问答到复杂环境交互的多种任务。


评估指标也已从简单的准确率、F1分数,扩展到包含基于相似度的指标(如ROUGE, BERTScore)和专门针对记忆完整性与幻觉的指标(如Memory Integrity, False Memory Rate)。
应用场景:记忆赋能的十二大领域

记忆机制作为智能体的核心能力,其应用已渗透至众多关键领域:
教育、科学研究、游戏与仿真、机器人、医疗健康、对话系统、工作流自动化、软件工程、在线流媒体与推荐、信息检索、金融与会计、法律与咨询。
六大未来方向与核心挑战

| 方向 |
核心挑战 |
关键机遇 |
| 持续学习与自进化智能体 |
防止灾难性遗忘,实现跨任务知识积累 |
结构化记忆与持续学习相统一的框架 |
| 多智能体-人类记忆组织 |
协作记忆构建、角色治理、冲突解决 |
社会记忆与长期协调机制 |
| 记忆基础设施与效率 |
无界日志的成本问题,压缩与选择性保留 |
混合参数化/非参数化设计 |
| 终身个性化与可信记忆 |
隐私泄露,记忆投毒,对抗攻击 |
用户可控、可审计的记忆机制 |
| 多模态、具身与世界模型记忆 |
跨模态对齐,物理动态编码 |
与显式预测性世界模型结合 |
| 真实世界基准与评估 |
现有基准过于简化,缺乏长期交互测试 |
发展闭环、纵向、执行导向的评估范式 |
关键洞察与启示
- 记忆≠存储:现代智能体记忆已从被动的信息存储进化为主动的认知架构,其核心是一套涉及选择性存储、压缩、主动遗忘、情境化推理的复杂操作。
- 上下文爆炸是核心驱动力:随着AI任务从单轮问答转向长达数周甚至数月的长期交互(如深度研究、数字助手),如何设计高效、可持续的记忆系统已成为架构设计的首要考量。
- 学习记忆管理本身:前沿趋势是让智能体通过强化学习等方式,自主学习如何管理记忆(存储什么、何时检索、如何更新),而非完全依赖人工设计的启发式规则。
- 评估需与时俱进:现有基准多测试静态知识召回,未来需重点评估智能体在动态环境适应、用户偏好漂移管理、安全与伦理边界遵守等方面的真实能力。
- 混合架构是主流:没有单一的记忆基质(内部或外部)能在所有场景中占优。有效的记忆系统必然是混合架构,巧妙结合内部记忆(快速、紧耦合)与外部记忆(可扩展、易编辑)的优势。
总结
这篇综述系统性地梳理了超过200篇相关文献,为理解与发展智能体记忆技术构建了一个清晰的统一框架。它明确指出,在AI迈向解决真实世界复杂问题的“下半场”,记忆不再是一个可选的功能组件,而是决定智能体能否在复杂、动态的现实环境中提供可靠、高效、个性化服务的核心基础设施。
对于从事AI Agent、RAG、个性化系统研究与开发的工程师和学者而言,这份综述提供了一份不可多得的技术路线图与灵感来源。要深入探索AI智能体的前沿发展,持续学习和交流至关重要,像云栈社区这样的开发者社区,正是获取最新知识、分享实践经验的有效平台。
论文原文链接:
https://arxiv.org/pdf/2602.06052
Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey
|