云栈社区»论坛 › 技术文档「 Note & Doc 」 › ClaudeCode 7层记忆架构解析：200行MEMORY.md文件如何解决LLM上 ...

发回帖发新帖

5466 积分	0 好友	746 主题

发消息

ClaudeCode 7层记忆架构解析：200行MEMORY.md文件如何解决LLM上下文限制

发表于 2026-4-2 05:33:21 | 查看: 117| 回复: 0

Claude Code多层记忆架构示意图

对于开发者而言，大型语言模型固定的上下文窗口一直是个令人头疼的限制。Claude Code 默认提供 200K token 的上下文窗口（通过 [1m] 后缀可扩展到 1M），但在实际的编码任务中——阅读几个大文件、全局搜索整个仓库、再进行几轮代码编辑——很容易就会超出这个限制。

Claude Code 的解决方案并非简单地扩大窗口，而是设计了一套精妙的 7层渐进式记忆管理系统。这套系统像人类大脑一样分层管理记忆，从毫秒级的轻量清理到“做梦”般的长期记忆巩固，层层递进，堪称当前智能体（Agent）设计的教科书级工程实践。技术细节的公开，也为广大开发者在云栈社区等平台提供了深入的讨论与学习素材。

核心基础：Token计数与窗口管理

一切记忆管理都基于精确的 Token 计数。底层函数 tokenCountWithEstimation() 会优先使用上次 API 调用返回的精确 input_tokens 值，然后对新增的消息内容进行粗略估算（普通文本约 4 bytes/token，JSON 更省，图片或文档固定为 2000 tokens）。系统还会预留约 20K tokens 作为输出缓冲区，绝不会将上下文窗口用满，以避免在需要压缩时连压缩指令本身都塞不进去的尴尬局面。

上下文窗口的解析优先级也有讲究：模型后缀 [1m] → 查询模型能力 → Beta Header → 环境变量 → 默认 200K。

7层记忆架构详解：从最经济到最强大

这套架构如同一座防御金字塔，层级越高能力越强，但成本也越高。设计的核心思想是 “预防为主”，尽可能使用成本低的层级来解决问题，防止触发更昂贵的高层操作。

ClaudeCode七层记忆架构总览图

第1层：工具结果存储 —— “日常清洁工”

单次 grep 可能返回超过 100KB 的文本，cat 一个大文件也可能达到 50KB。如果这些内容直接塞进上下文，不仅浪费 Token，而且很快就会过时。

Claude Code 的解决方案是：每个工具调用的结果在进入上下文前，都会经过一套预算系统的审核。当结果大小超过预设阈值时，系统会执行以下操作：

完整的结果被写入磁盘（路径格式：tool-results/<sessionId>/<toolUseId>.txt）。
上下文中只保留前 ~2KB 的预览文本，并用 <persisted-output> 标签包裹。
模型在后续如果需要查看完整内容，可以使用 Read 工具来读取。

工具结果存储限制配置表

一个关键设计在于 “内容替换状态”：一旦系统决定用预览文本来替换某个完整结果，这个决定就会被“冻结”。后续所有的 API 调用都会使用相同的预览文本，确保 Prompt 前缀的字节完全一致，从而最大化服务器端 Prompt Cache 的命中率。这个状态甚至会被持久化到会话记录中，支持会话恢复（resume）。

同时，每个工具的阈值可以通过名为 tengu_satin_quoll 的功能标志进行远程调节，这使得 Anthropic 能够在无需部署新代码的情况下，灵活调整特定工具的持久化策略。

ContentReplacementState数据结构

第2层：微压缩 —— 每轮对话前的“日常保洁”

这是最轻量级的上下文清理机制，几乎不产生额外的 API 调用成本，在每轮 API 调用前都会执行。微压缩不会总结任何内容，它仅仅清除那些不太可能被再次用到的旧工具结果。

它包含三种不同的触发机制：
a) 基于时间
如果距离上一次助手消息回复已超过预设阈值（默认为 60 分钟），鉴于服务器端 Prompt Cache 的生存时间（TTL）大约也是 1 小时，缓存很可能已过期，此时可以安全地清理旧的工具结果，将其替换为 [Old tool result content cleared]，但会保留最近 N 条结果。

配置示例如下（通过 GrowthBook 的 tengu_slate_heron 标志控制）：

TimeBasedMCConfig = {
  enabled: false, // Master switch
  gapThresholdMinutes: 60, // Trigger after 1h idle
  keepRecent: 5 // Keep last 5 tool results
}

b) 缓存编辑式微压缩
这是技术层面最有趣的一种机制。它利用 cache_edits 功能在服务器端删除旧的工具结果，而本地保存的消息记录保持不变，从而避免破坏客户端本地的缓存前缀。所有工具结果都会被注册到一个全局的 CachedMCState 中，当超过阈值时，系统会选择最旧的结果进行删除。

关键点：此操作只应在主线程（用户交互线程）中运行。如果由分支出的子代理（如会话内存、代理摘要等）修改了全局状态，将会破坏主线程的缓存编辑，导致缓存失效。

c) API级上下文管理
这是一种较新的服务器端方法，通过 context_management API 参数，让 API 服务端直接处理一部分清理工作。

ContextEditStrategy配置示例

第3层：会话内存压缩 —— 最具前瞻性的一层

这一层的聪明之处在于 不等上下文满了再慌张总结，而是实时维护一份结构化的会话笔记。

每个会话都会在本地生成一个标记文件，路径为：
~/.claude/projects/<slug>/.claude/session-memory/<sessionId>.md
文件遵循一个结构化的模板：

会话内存Markdown模板

触发条件是：Token 数量增长达到阈值，并且满足（工具调用次数达标或上一轮没有工具调用）。

当自动压缩被触发时，系统首先尝试 trySessionMemoryCompaction()：

检查会话内存文件是否有实际内容（而非空模板）。
将会话内存文件的内容直接用作压缩摘要——无需调用 API。
计算需要保留哪些最近的消息（通常从最后一个已总结的消息ID向后扩展，以满足最低保留要求）。
返回一个压缩结果，包含“会话内存摘要” + “保留的近期消息”。

SessionMemoryCompactConfig配置

当需要压缩时，直接注入这份现成的总结，实现零额外API调用，成本极低。

第4层：全压缩 —— 上下文快满时的“紧急刹车”

当 tokenCountWithEstimation() 超过自动压缩阈值（有效窗口大小减去 13K），且会话内存不可用时，将触发此层。

全压缩的流程非常严谨：

预处理：执行用户的 PreCompact 钩子函数，移除图片、技能附件等非核心内容。
生成摘要：系统会 fork 出一个专门的摘要代理，并给出详细提示，要求生成一个包含 9个部分 的结构化摘要。代理会先撰写 <analysis> 草稿进行思考，再输出 <summary> 正文（草稿部分在最终返回时会被剥离，不占用上下文 Token）。

全压缩的9部分摘要结构