云栈社区»论坛 › 站务中心「 Forum Service 」 › 中科院开源轻量级内存原生Agent记忆系统Mandol：告别碎片化记忆 ...

发回帖发新帖

4319 积分	0 好友	567 主题

发消息

中科院开源轻量级内存原生Agent记忆系统Mandol：告别碎片化记忆

发表于 1 小时前 | 查看: 3| 回复: 0

随着 LLM Agent 在智能客服、个人助理、社交陪伴等领域加速落地，交互模式正在从单轮问答向长周期、多任务协同演进。这一趋势要求 Agent 的记忆模块不仅能承载跨会话、多类型的信息（如对话内容、用户意图、实体状态和事件脉络），更要在复杂查询场景下提供准确、可溯源且低延迟的证据支撑。

然而，当前主流的记忆系统普遍依赖向量数据库、图数据库与关系型存储的异构组合，容易导致三个突出问题：记忆表示碎片化、跨库查询开销高，以及检索机制仍停留在 RAG 式的被动相似度匹配，会引入噪声、遗漏关联线索，且缺乏 Token 预算控制，检索质量忽高忽低。

面对这些挑战，中国科学院软件研究所等机构推出了 Mandol——一种凝聚式内存原生分层记忆系统。它的核心思路是：将碎片化的记忆表示与异构存储，凝聚为统一的内存原生架构。

Mandol 论文标题页

论文标题：Mandol: An Agglomerative Agent Memory System for Long-Term Conversations
arXiv 论文链接：https://arxiv.org/pdf/2606.29778
项目地址：https://github.com/AgentCombo/Mandol

Mandol 系统架构与记忆构建检索流程图

Mandol 通过分层记忆模型、统一内存语义数据结构和智能量化检索机制三项协同设计，将原本散落的记忆表示与存储融合为单一架构，为 Agent 提供了兼顾表示能力、检索效率和上下文质量的记忆底座。

在 LoCoMo 和 LongMemEval 两项公开长对话记忆评测中，Mandol 在所对比的代表性开源记忆系统中取得最优总体准确率。以 GPT-4.1-mini 作为回答生成模型时，整体准确率分别达到 92.21% 和 88.40%。在 10 QPS 并发负载下，Mandol 的平均检索延迟仅 82.2 ms，相比最快基线提升约 5.4 倍；平均插入延迟 39.7 ms，提升约 4.8 倍。即使在消费级笔记本硬件上，其延迟也低于现有系统，端侧部署潜力突出。

「碎片化存储」与「被动检索」的核心瓶颈

实际场景中，Agent 面临的记忆查询错综复杂，以下三类查询尤其棘手：

强时序性检索：例如“去年暑假我去北欧旅行期间订了哪些酒店，总花费多少？”，系统需要精准回溯多次住宿记录、关联时间与花销并汇总，这要求对长周期内多个时序事件具备精确提取与聚合能力。
跨会话多跳推理：比如用户某次会话提到“我对海鲜过敏”，几日后又在另一会话中说“吃完晚饭皮肤起了大片红疹”，系统必须将过敏史与当前症状进行跨会话的逻辑拼接，得出可能的过敏反应结论，而非孤立地匹配关键词。
动态状态更新与去噪：当用户的购房偏好从“郊区大户型”变为“市区学区房”时，系统必须准确追踪状态变化，在回答“根据我的最新需求推荐几个楼盘”时只依据最新的约束条件，自动覆盖陈旧偏好。

现有主流记忆系统（Mem0、Zep、MemOS 等）普遍面临三个难题：

第一，记忆信息难以统一表示。向量嵌入擅长语义相似性，却无法显式表达逻辑结构和时序关系；知识图谱虽然结构化，但其固定模式对动态语义和演化支持不足。两者缺少统一表征框架，查询时难以获得完整视图。

第二，跨库查询开销大。复杂混合查询需在向量库、图库等存储之间来回编排，由此产生高昂的序列化与 I/O 开销，难以满足低延迟交互要求。

第三，查询精度与 Token 消耗难以兼顾。传统 RAG 式检索容易引入噪声、冲突或丢失推理线索，而且 Token 消耗缺乏有效约束——简单查询可能浪费上下文窗口，复杂查询的关键证据链却常因截断而丢失。

Mandol 的三项核心设计

Mandol 从记忆模型、存储架构和检索机制三个维度进行系统性重构。

设计一：分层记忆模型——结构化语义图的统一表征

Mandol 将记忆组织为两层：

基础记忆层直接存储原始交互信息，以记忆单元（封装原始信息与语义向量）、记忆空间（提供多粒度逻辑隔离）以及显式关系（时序、引用、状态更新等）和隐式语义关系，构建统一的结构化语义图。
高阶抽象记忆层则由大模型自动从基础记忆中提炼出情景记忆（事件链）、语义记忆（实体关系图）和情感记忆（用户偏好演化链）等抽象知识。

两层之间通过可追溯链接保持双向关联，确保任何抽象推理结论都能溯源到原始对话证据。在结构化语义图中，基础层的记忆单元即为节点，显式关系边通过规则解析直接建立，隐式语义边则在查询时按需从向量索引中获取。高阶层再进一步抽象：事件链以时序和因果边连接事件节点，实体图以引用和属性边组织实体关系，偏好演化链以状态更新边追踪用户偏好的变化轨迹。

举例来说，一个简短的对话片段“预订了一间胡同民宿”被增强为带有时空上下文的事件节点后，Mandol 不仅将它和同一次旅行中的其他事件（如“航班延误”“参观故宫”）建立时序边，还会通过语义索引与之前会话中的“计划预订王府井酒店”建立跨会话的隐式关联，并在此基础上抽象出一条状态更新边，完整刻画出住宿偏好从“王府井酒店”到“胡同民宿”的演化。所有抽象节点都保留指向原始基础单元的引用，为后续检索提供了既细粒度又可推理的数据基础。

智能体分层记忆理论模型结构图

设计二：内存原生语义数据结构——消除跨库查询延迟

异构多库架构是查询延迟的主要元凶。Mandol 提出基于内存语义数据结构的统一存储架构，设计了 SemanticMap 与 SemanticGraph 协同工作的原生内存数据结构，在单一地址空间内实现键值存储、向量索引与图结构的原生融合。

SemanticMap 融合传统键值存储和向量结构，解决记忆单元的多模态数据存储与语义查询，并借助记忆空间标签实现上下文逻辑隔离；SemanticGraph 则统一管理显式记忆关系与隐式语义关联——显式关系以结构化边直接存储，隐式语义关联依托 SemanticMap 中的向量索引按需检索并动态返回相似邻居，避免了预先枚举所有潜在语义边。两者相互关联，在物理层面形成结构化语义图的统一存储视图。

基于此，Mandol 提供了一套原子化混合检索算子，覆盖记忆单元查询、空间查询、关系查询和多跳查询，将向量匹配、图遍历等操作封装为内存内的高效执行单元，极大减少了异构存储带来的 I/O 延迟。活跃记忆层通过异步分页机制连接嵌入式持久化后端 DuckDB，用于冷数据或长期存储。

语义数据结构与混合查询算子架构图

设计三：智能量化检索——在 Token 预算内构建高质量上下文

Mandol 将检索任务重新定义为“在有限 Token 预算下构建高质量上下文”，并设计了一套无需大模型介入的量化检索流程。

其核心路径是：首先通过查询自适应的智能路由，分配预算并触发多源并行召回（根据查询特征选取部分高阶记忆和基础记忆），确保证据全面覆盖；然后对召回结果执行记忆源内量化去噪与跨记忆源冲突消解，剔除噪声和冗余；最后在 Token 预算约束下精简并生成上下文，兼顾相关性与多样性，从而在有限开销内获得高信息密度的证据上下文。

智能路由与量化检索方法流程图

实验：准确率领先，效率大幅提升，部署友好

研究团队在 LoCoMo 和 LongMemEval 两项基准上对 Mandol 进行了全面验证。

在检索质量上，以 GPT-4.1-mini 为生成模型、GPT-4o-mini 为评估模型时，Mandol 在 LoCoMo 和 LongMemEval 上分别取得 92.21% 和 88.40% 的整体准确率，在所有比较的开源记忆系统中排名首位。尤其在多跳推理、时序推理和知识更新等复杂查询类型上，优势更为明显。

值得关注的是，即使采用更轻量的检索后端模型（Qwen3-Embedding-0.6B 与 bge-reranker-v2-m3），Mandol 仍在总体准确率和多数关键任务上超过那些使用了更大检索模型的对比系统，同时 Token 消耗还降低了 17.4%–20.0%。这说明性能提升主要源于记忆组织与检索机制的结构性优势，而非单纯堆砌模型规模。

LoCoMo和LongMemEval准确率对比柱状图

在系统性能方面，于 NVIDIA H800 GPU、10 QPS 并发负载下，Mandol 的平均检索延迟仅 82.2 ms，相比最快基线实现约 5.4 倍加速；平均记忆插入延迟 39.7 ms，提升约 4.8 倍。

而在本地消费级设备（笔记本 NVIDIA RTX 5090）的补充实验中，Mandol 的延迟依然低于现有系统，展现出优异的端侧部署潜力。这种显著的效率优势，根源于其进程内内存原生架构彻底省去了数据库往返和跨库协调的开销。

系统插入与检索延迟对比柱状图

在资源消耗上，Mandol 同样表现良好。其内存占用适中，且由于消除了对外部数据库服务及其网络通信的依赖，完成标准长对话负载的整体耗时仅为对比系统的 1/4.2 至 1/9.9。

RAM和GPU内存消耗对比折线图

结语

Mandol 通过凝聚式的分层记忆模型、内存原生统一存储与智能量化检索三项创新，为 Agent 提供了一个兼顾高精度、低延迟和轻量化部署的记忆系统方案。该系统已在 GitHub 开源，便于研究者复现、试用和进一步开发。得益于内存原生架构，Mandol 无需依赖外部数据库，可在消费级设备上高效运行，为端侧 Agent 的记忆管理打开了新的可能。

对于正在构建需要可靠长期记忆的对话 Agent、推荐 Agent 或陪伴 Agent 等团队而言，Mandol 提供了一个精度、性能和工程实用价值俱佳的选择。如果你对这类系统的实践经验感兴趣，也欢迎到云栈社区与更多开发者交流探讨。

上一篇：一人量化基金：用 Loop Engineering 搭建自进化交易框架
下一篇：OpenCode 接入 MCP 总览：AceData Cloud 的 10 个 AI 工具怎么选

Agent, 记忆系统, Mandol, 开源, 内存原生