云栈社区»论坛 › 回收站「 Recycle Bin 」 › DeepSeek-V4延期：梁文锋用长期记忆LTM挑战AI原生记忆时代 ...

5516 积分	0 好友	762 主题

发消息

DeepSeek-V4延期：梁文锋用长期记忆LTM挑战AI原生记忆时代

发表于 2026-3-17 00:35:43 | 查看: 148| 回复: 0

梁文锋在演讲台上介绍DeepSeek-V4相关概念

DeepSeek-V4何时发布？整个AI圈都在猜测，但正确答案或许只有梁文锋自己清楚。

豆包、千问、元宝……无论大厂还是初创，都选择在春节期间扎堆发布新版本，生怕晚一步就会被DeepSeek-V4的光芒彻底掩盖。如果换成其他公司CEO，面对这种全行业翘首以盼的局面，恐怕早就将半成品推向市场了——先抢占声量高地，再慢慢迭代优化，这几乎是互联网行业的标准操作。

但梁文锋偏不这么做。与他关系相近的同行曾透露过一句大实话：“团队稳，底子厚，不会草率发布。”

据外媒报道，V4是一次架构级的深度重构。它将包含1万亿参数、支持百万级别上下文、并具备原生多模态能力，预计在4月份亮相。而本次迭代最核心的升级，是一个名为LTM（Long-Term Memory，长期记忆）的系统。

LTM是一套在模型架构内部实现持久化记忆的机制。它能让AI模型跨越不同的对话和任务，记住用户身份、过往的聊天内容以及个人偏好。这就像人类将重要的经验和知识沉淀下来，而不是每次“开机”都从零开始。

而这个能力，恰恰是目前大火的OpenClaw最为欠缺的部分。

虽然OpenClaw已经能够替人类完成部分工作，但其记忆系统的本质，不过是将笔记写入本地的Markdown文件。工作时，它会持续地将这份笔记发送给大模型作为上下文。这就导致一个问题：OpenClaw使用得越久，发送记忆所消耗的Token就越多，成本也随之线性增长。

整个开发者社区都在想方设法为它打补丁、装插件、增加Skill，试图缓解这个问题。然而，没人能从根源上解决它，因为问题出在模型本身——它天生就“不记事”。

LTM要做的，正是从架构层面“根治”这个顽疾。此次更新带来的挑战远超常规的版本迭代，模型的情感交互、个性化记忆等模块的迁移和调优仍需时间。

因此，梁文锋的“拖延”更像是一种克制。在一个所有人都在比拼发布速度和声量大小的行业里，他选择等待所有零件都准备妥当再出手。R1之所以能一炮而红，靠的并非抢跑，而是一出手就具备让对手无话可说的实力。他显然打算用同样的策略对待V4——要么不发，要发就是“王炸”。

梁文锋到底在憋什么？

OpenClaw的爆火让业界达成了一个共识：当AI真正开始替代人类执行任务时，模型对上下文的理解和记忆能力，就不再是锦上添花的加分项，而是决定其能否实用的底线。

一个记不住上文的智能体（Agent），每隔几轮对话就会重复犯错、丢失任务状态、忘记用户刚才的指令。因此，过去两年，行业也涌现了不少LTM解决方案。

例如，伯克利团队在2023年提出的MemGPT，借鉴了计算机操作系统中虚拟内存的思路，让模型自主决定何时将哪些信息从外部存储调入有限的上下文窗口，以及何时将其换出。

2025年发布的Mem0，则将这条路径向工程化推进了一步。它在LOCOMO基准测试上的表现比OpenAI内置的记忆系统高出26%，同时将Token消耗降低了90%，这也成为当前OpenClaw社区使用最广泛的记忆插件。

此外，还有利用扩散激活模拟人类联想式记忆提取的SYNAPSE，以及用递归语义压缩解决记忆膨胀问题的SimpleMem等方案。

但是，所有这些方案都有一个共同的天花板：它们都是在模型外部运行的“中间件”。记忆的提取、压缩、检索全部由外挂系统完成，模型本身并不参与。因此，记忆的质量完全取决于外挂系统的工程水平，模型接收到的记忆信息也参差不齐。

并且，所有记忆最终都需要通过上下文窗口“注入”模型，这与OpenClaw遇到的问题如出一辙：记忆越多，Token成本和计算开销就越大。

还有一点至关重要：模型无法在外挂记忆上进行真正的“学习”。在这个过程中，模型只是在阅读别人帮它整理好的笔记，而不是将经验真正内化为自身的能力。

梁文锋要走的，很可能是一条完全不同的路。

梁文锋在会议中专注聆听

从梁文锋署名的Engram论文以及V4架构泄露的信息来看，DeepSeek的方向并非在模型外部搭建记忆系统，而是将记忆能力直接嵌入到模型架构本身。

Engram已经证明，在Transformer内部可以开辟一块专用的条件记忆空间。它使用O(1)复杂度的哈希查找来存取静态知识。关键在于，调用已存储的知识时，既不占用宝贵的上下文窗口容量，也不会增加推理阶段的计算成本。

更令人瞩目的是，Engram的“无限记忆机制”实验表明，这块记忆空间的容量可以近乎无限地扩展，同时保持模型推理开销的恒定。

说得更直白一些，当前的模型想要“记住”一件事，唯一的方法就是把它塞进有限的对话窗口里，窗口一满，就得丢弃旧信息。Engram相当于给模型加装了一块独立的“硬盘”，你可以把记忆存放在这个外部存储中，无需堆放在有限的“运行内存”（上下文窗口）里。当需要调取特定记忆时，再快速接入即可。而且，这块“硬盘”理论上可以无限扩容，查找速度始终恒定。

这条路一旦走通，意味着DeepSeek将跳过整个“外挂记忆”的技术范式，直接进入“原生记忆”的时代。这也恰恰瞄准了OpenClaw最薄弱的环节——OpenClaw让AI有了可以行动的“手脚”，却没给它一颗能持久记事的“大脑”。

OpenClaw当前的记忆系统存在三个结构性缺陷：

第一个是压缩损耗。
上下文窗口塞满后，OpenClaw会自动将旧对话压缩成一段摘要来腾出空间。虽然事实性信息可能得以保留，但对话的完整脉络、决策的推理链条、语气和优先级等细节全部丢失，且过程不可逆。例如，压缩前，智能体可能记得一套完整的代码调试方案；压缩后，可能只剩一句“用户在调试一个Bug”，具体的排查路径和步骤全都没了。

第二个是检索失效。
记忆文件使用几周后就会堆积到数百条，主要依靠向量相似度进行检索召回。然而，向量检索只能匹配语义相近的文本片段，无法理解不同记忆条目之间复杂的逻辑关系。假设用户用OpenClaw做了A、B、C三个方案，并最终与客户敲定了C方案。当用户后来想检索“最终敲定的方案”时，由于A、B、C三个方案的主题都与“发给客户的方案”相关，向量检索很可能错误地召回A或B方案。

第三个是记忆容量存在硬性上限。
OpenClaw的记忆分为两层：核心记忆（MEMORY.md）在每次会话启动时全量注入上下文；日志记忆则通过搜索工具按需召回。听起来合理，但核心记忆文件有单文件20000字符的截断限制，所有引导文件合计不得超过150000字符。这意味着，随着使用时间增长，MEMORY.md文件越来越长，用户要么面临信息被截断丢失，要么承受每次会话Token消耗的线性增长。此外，日志记忆的检索质量完全依赖模型自身的判断，它若认为不相关就不会召回，极易导致重要信息被遗漏。

简而言之，这三个问题根源相同：上下文窗口就那么大，往里塞的东西越多，结果要么是记错，要么是找不到，要么是成本高到无法承受。OpenClaw的记忆并非真正的“记住了”，而更像是“抄了一堆笔记却总也翻不到想要的那一页”。

如果V4真能在架构层面实现原生长期记忆，那么它不仅解决了OpenClaw的痛点，更有望让模型进化为“可成长的模型”——用得越久，越懂用户。这与当前所有大模型“每次打开都是一张白纸”的使用体验有着本质区别。

腾讯的一项最新研究从另一个侧面印证了这条技术路径的价值。从OpenAI加入腾讯担任首席AI科学家的姚顺雨，在2月份发布了他入职后的首篇署名论文。

论文名为CL-bench（Context Learning Benchmark），专门测试大模型是否能从给定的上下文中真正“学到”东西，而不是考核它预训练记住了多少知识。测试结果不容乐观：所有前沿模型的平均正确率仅为17.2%。表现最好的GPT-5.1，正确率也只有23.7%。这意味着，你精心准备一份背景资料喂给AI，它有超过八成的概率没有真正“学会”。

姚顺雨在论文中判断，当前AI与真正智能之间的鸿沟，不在于知识的多寡，而在于学习的能力。一个装满知识却不会学习的AI，就像一个背完整本字典却不会写作的人。他在AGI-Next前沿峰会上也表达了类似观点，认为大模型迈向高价值应用的核心瓶颈，在于能否“用好上下文”。

如何实现有效的记忆与学习，很可能成为2026年人工智能领域的核心议题。一旦上下文学习与记忆变得可靠，模型或许就能实现一定程度的自主学习。梁文锋不可能不懂这个道理，这或许正是发布日期一推再推的深层原因。

DeepSeek需要补足的短板

愿景固然宏大，但现实挑战同样严峻。在梁文锋潜心打磨V4的这段时间里，竞争对手们并未停下脚步。DeepSeek需要补强的课，比外界想象的更多。

第一块也是最明显的短板，是多模态能力。
迄今为止，DeepSeek仍是一个纯文本模型，无法直接理解图像、视频或语音。当然，这并非说DeepSeek完全没有视觉相关技术。今年1月，他们发布了OCR 2，这是一个30亿参数的文档理解专用小模型。它采用名为DeepEncoder V2的编码器替代传统视觉编码器，使模型能够像人类一样按照阅读顺序理解文档版面。

仅在文档解析的基准测试上，OCR 2用最少的视觉Token战胜了Qwen3-VL-235B这样的千亿级多模态模型。但OCR 2的功能是单一的“图像→文本”转换，本质上是将文档内容提取为文本，并非通用的视觉理解。换句话说，OCR 2证明了DeepSeek具备做好视觉编码的潜力，但从“能读文档”到“能看视频、听语音、理解自然场景”，中间隔着一整个技术代际。

与此同时，其他大厂早已进入“全模态”竞争阶段。字节的Seedance 2.0证明了优秀多模态模型的巨大用户基础和商业潜力。GPT-5.4已原生支持音频、视频乃至计算机操作。有消息称，梁文锋近半年的主要工作之一就是补齐视觉内容处理的短板。

第二块短板是智能体（Agent）能力。
DeepSeek官方微信公众号自己置顶的文章标题就是“迈向Agent时代的第一步”，这足以说明梁文锋清楚行业的前进方向。

DeepSeek微信公众号页面截图

随着OpenClaw被越来越多人使用，无论是大厂还是小厂，都在强调自身模型的Agent能力。Kimi K2.5已经能够自主调度100个子智能体、并行处理1500个步骤。ChatGPT的智能体功能可以自动填表、订机票、跨网站拉取信息。Anthropic则推出了Agent Teams，让多个AI协同完成复杂任务。

第三块短板是AI编程能力。
这是2026年发展最快、商业化最成熟的赛道之一。在编程基准测试SWE-bench Verified上，Claude Opus 4.6得分为80.8%，GPT-5.3 Codex约为80%，而DeepSeek V3.2为73.1%。在难度更高的SWE-bench Pro测试中，DeepSeek V3.2得分为40.9%，远低于GPT-5.4的57.7%。

更为关键的是，行业已从早期的“氛围编程”（Vibe Coding）进化到了“智能体工程”（Agentic Engineering）阶段，目标是让AI独立完成工程级任务。智谱的GLM-5论文标题就直接命名为《From Vibe Coding to Agentic Engineering》，其模型能连续运行24小时代码、进行700次工具调用、800次上下文切换，从零构建出一个GBA模拟器。尽管此前有爆料称DeepSeek-V4的内部测试在编程能力上超越了Claude Sonnet 3.5，但后者目前已被Anthropic官方正式停用。

第四块短板是AI搜索与事实准确性。
如今，几乎所有主流聊天机器人产品都默认联网，单纯将“联网搜索”设为一个独立开关的APP已不多见。OpenAI有ChatGPT Search，Google有Gemini Embedding 2搜索。相比之下，DeepSeek的搜索能力一直是其短板，且搜索结果时常出现“幻觉”。

Vectara的测试数据显示，DeepSeek R1的幻觉率高达14.3%，几乎是V3（3.9%）的四倍。在学术引用检索测试中，情况更为严峻，其引用的结果中有高达91.43%是错误的，包括捏造论文标题、虚构DOI号、张冠李戴作者等。DeepSeek自己也承认，幻觉是当前阶段“不可避免”的问题。

究其原因，一方面，DeepSeek缺乏自建的搜索基础设施，依赖第三方接口导致信息源质量不可控；另一方面，模型本身的事实核查能力不够强，即使获得了正确的检索结果，也可能在答案生成环节引入错误。两者叠加，造成了用户体验上的“搜了也不一定准”。在Agent时代，可靠的信息获取与验证不是加分项，而是必选项。

DeepSeek面临的这些短板，没有一块是能够通过小修小补解决的。梁文锋不仅仅是在开发一个更强的“V系列”模型，他是在同时进行多场攻坚战。

四月已近在眼前。但即便再次“跳票”，也无需过于意外。对梁文锋而言，“不发”永远比“发错”更重要。这场关于人工智能未来形态的竞赛，耐心与精准，或许比速度更为关键。关于AI模型记忆与学习的更多深度探讨，欢迎在云栈社区与广大开发者交流。

上一篇：苹果调整中国App Store佣金费率：2026年标准30%降至25%，iOS开发者年省60亿
下一篇：Spring Boot OA系统OASYS代码审计实战：CSRF、SQL注入与任意文件读取漏洞详解

DeepSeek-V4, 长期记忆, 多模态, 智能体, 人工智能编程

DeepSeek-V4延期：梁文锋用长期记忆LTM挑战AI原生记忆时代

梁文锋到底在憋什么？

DeepSeek需要补足的短板

相关帖子

浏览过的版块