
DeepSeek-V4何时发布?整个AI圈都在猜测,但正确答案或许只有梁文锋自己清楚。
豆包、千问、元宝……无论大厂还是初创,都选择在春节期间扎堆发布新版本,生怕晚一步就会被DeepSeek-V4的光芒彻底掩盖。如果换成其他公司CEO,面对这种全行业翘首以盼的局面,恐怕早就将半成品推向市场了——先抢占声量高地,再慢慢迭代优化,这几乎是互联网行业的标准操作。
但梁文锋偏不这么做。与他关系相近的同行曾透露过一句大实话:“团队稳,底子厚,不会草率发布。”
据外媒报道,V4是一次架构级的深度重构。它将包含1万亿参数、支持百万级别上下文、并具备原生多模态能力,预计在4月份亮相。而本次迭代最核心的升级,是一个名为LTM(Long-Term Memory,长期记忆)的系统。
LTM是一套在模型架构内部实现持久化记忆的机制。它能让AI模型跨越不同的对话和任务,记住用户身份、过往的聊天内容以及个人偏好。这就像人类将重要的经验和知识沉淀下来,而不是每次“开机”都从零开始。
而这个能力,恰恰是目前大火的OpenClaw最为欠缺的部分。
虽然OpenClaw已经能够替人类完成部分工作,但其记忆系统的本质,不过是将笔记写入本地的Markdown文件。工作时,它会持续地将这份笔记发送给大模型作为上下文。这就导致一个问题:OpenClaw使用得越久,发送记忆所消耗的Token就越多,成本也随之线性增长。
整个开发者社区都在想方设法为它打补丁、装插件、增加Skill,试图缓解这个问题。然而,没人能从根源上解决它,因为问题出在模型本身——它天生就“不记事”。
LTM要做的,正是从架构层面“根治”这个顽疾。此次更新带来的挑战远超常规的版本迭代,模型的情感交互、个性化记忆等模块的迁移和调优仍需时间。
因此,梁文锋的“拖延”更像是一种克制。在一个所有人都在比拼发布速度和声量大小的行业里,他选择等待所有零件都准备妥当再出手。R1之所以能一炮而红,靠的并非抢跑,而是一出手就具备让对手无话可说的实力。他显然打算用同样的策略对待V4——要么不发,要发就是“王炸”。
梁文锋到底在憋什么?
OpenClaw的爆火让业界达成了一个共识:当AI真正开始替代人类执行任务时,模型对上下文的理解和记忆能力,就不再是锦上添花的加分项,而是决定其能否实用的底线。
一个记不住上文的智能体(Agent),每隔几轮对话就会重复犯错、丢失任务状态、忘记用户刚才的指令。因此,过去两年,行业也涌现了不少LTM解决方案。
例如,伯克利团队在2023年提出的MemGPT,借鉴了计算机操作系统中虚拟内存的思路,让模型自主决定何时将哪些信息从外部存储调入有限的上下文窗口,以及何时将其换出。
2025年发布的Mem0,则将这条路径向工程化推进了一步。它在LOCOMO基准测试上的表现比OpenAI内置的记忆系统高出26%,同时将Token消耗降低了90%,这也成为当前OpenClaw社区使用最广泛的记忆插件。
此外,还有利用扩散激活模拟人类联想式记忆提取的SYNAPSE,以及用递归语义压缩解决记忆膨胀问题的SimpleMem等方案。
但是,所有这些方案都有一个共同的天花板:它们都是在模型外部运行的“中间件”。记忆的提取、压缩、检索全部由外挂系统完成,模型本身并不参与。因此,记忆的质量完全取决于外挂系统的工程水平,模型接收到的记忆信息也参差不齐。
并且,所有记忆最终都需要通过上下文窗口“注入”模型,这与OpenClaw遇到的问题如出一辙:记忆越多,Token成本和计算开销就越大。
还有一点至关重要:模型无法在外挂记忆上进行真正的“学习”。在这个过程中,模型只是在阅读别人帮它整理好的笔记,而不是将经验真正内化为自身的能力。
梁文锋要走的,很可能是一条完全不同的路。

从梁文锋署名的Engram论文以及V4架构泄露的信息来看,DeepSeek的方向并非在模型外部搭建记忆系统,而是将记忆能力直接嵌入到模型架构本身。
Engram已经证明,在Transformer内部可以开辟一块专用的条件记忆空间。它使用O(1)复杂度的哈希查找来存取静态知识。关键在于,调用已存储的知识时,既不占用宝贵的上下文窗口容量,也不会增加推理阶段的计算成本。
更令人瞩目的是,Engram的“无限记忆机制”实验表明,这块记忆空间的容量可以近乎无限地扩展,同时保持模型推理开销的恒定。
说得更直白一些,当前的模型想要“记住”一件事,唯一的方法就是把它塞进有限的对话窗口里,窗口一满,就得丢弃旧信息。Engram相当于给模型加装了一块独立的“硬盘”,你可以把记忆存放在这个外部存储中,无需堆放在有限的“运行内存”(上下文窗口)里。当需要调取特定记忆时,再快速接入即可。而且,这块“硬盘”理论上可以无限扩容,查找速度始终恒定。
这条路一旦走通,意味着DeepSeek将跳过整个“外挂记忆”的技术范式,直接进入“原生记忆”的时代。这也恰恰瞄准了OpenClaw最薄弱的环节——OpenClaw让AI有了可以行动的“手脚”,却没给它一颗能持久记事的“大脑”。
OpenClaw当前的记忆系统存在三个结构性缺陷:
第一个是压缩损耗。
上下文窗口塞满后,OpenClaw会自动将旧对话压缩成一段摘要来腾出空间。虽然事实性信息可能得以保留,但对话的完整脉络、决策的推理链条、语气和优先级等细节全部丢失,且过程不可逆。例如,压缩前,智能体可能记得一套完整的代码调试方案;压缩后,可能只剩一句“用户在调试一个Bug”,具体的排查路径和步骤全都没了。
第二个是检索失效。
记忆文件使用几周后就会堆积到数百条,主要依靠向量相似度进行检索召回。然而,向量检索只能匹配语义相近的文本片段,无法理解不同记忆条目之间复杂的逻辑关系。假设用户用OpenClaw做了A、B、C三个方案,并最终与客户敲定了C方案。当用户后来想检索“最终敲定的方案”时,由于A、B、C三个方案的主题都与“发给客户的方案”相关,向量检索很可能错误地召回A或B方案。
第三个是记忆容量存在硬性上限。
OpenClaw的记忆分为两层:核心记忆(MEMORY.md)在每次会话启动时全量注入上下文;日志记忆则通过搜索工具按需召回。听起来合理,但核心记忆文件有单文件20000字符的截断限制,所有引导文件合计不得超过150000字符。这意味着,随着使用时间增长,MEMORY.md文件越来越长,用户要么面临信息被截断丢失,要么承受每次会话Token消耗的线性增长。此外,日志记忆的检索质量完全依赖模型自身的判断,它若认为不相关就不会召回,极易导致重要信息被遗漏。
简而言之,这三个问题根源相同:上下文窗口就那么大,往里塞的东西越多,结果要么是记错,要么是找不到,要么是成本高到无法承受。OpenClaw的记忆并非真正的“记住了”,而更像是“抄了一堆笔记却总也翻不到想要的那一页”。
如果V4真能在架构层面实现原生长期记忆,那么它不仅解决了OpenClaw的痛点,更有望让模型进化为“可成长的模型”——用得越久,越懂用户。这与当前所有大模型“每次打开都是一张白纸”的使用体验有着本质区别。
腾讯的一项最新研究从另一个侧面印证了这条技术路径的价值。从OpenAI加入腾讯担任首席AI科学家的姚顺雨,在2月份发布了他入职后的首篇署名论文。
论文名为CL-bench(Context Learning Benchmark),专门测试大模型是否能从给定的上下文中真正“学到”东西,而不是考核它预训练记住了多少知识。测试结果不容乐观:所有前沿模型的平均正确率仅为17.2%。表现最好的GPT-5.1,正确率也只有23.7%。这意味着,你精心准备一份背景资料喂给AI,它有超过八成的概率没有真正“学会”。
姚顺雨在论文中判断,当前AI与真正智能之间的鸿沟,不在于知识的多寡,而在于学习的能力。一个装满知识却不会学习的AI,就像一个背完整本字典却不会写作的人。他在AGI-Next前沿峰会上也表达了类似观点,认为大模型迈向高价值应用的核心瓶颈,在于能否“用好上下文”。
如何实现有效的记忆与学习,很可能成为2026年人工智能领域的核心议题。一旦上下文学习与记忆变得可靠,模型或许就能实现一定程度的自主学习。梁文锋不可能不懂这个道理,这或许正是发布日期一推再推的深层原因。
DeepSeek需要补足的短板
愿景固然宏大,但现实挑战同样严峻。在梁文锋潜心打磨V4的这段时间里,竞争对手们并未停下脚步。DeepSeek需要补强的课,比外界想象的更多。
第一块也是最明显的短板,是多模态能力。
迄今为止,DeepSeek仍是一个纯文本模型,无法直接理解图像、视频或语音。当然,这并非说DeepSeek完全没有视觉相关技术。今年1月,他们发布了OCR 2,这是一个30亿参数的文档理解专用小模型。它采用名为DeepEncoder V2的编码器替代传统视觉编码器,使模型能够像人类一样按照阅读顺序理解文档版面。
仅在文档解析的基准测试上,OCR 2用最少的视觉Token战胜了Qwen3-VL-235B这样的千亿级多模态模型。但OCR 2的功能是单一的“图像→文本”转换,本质上是将文档内容提取为文本,并非通用的视觉理解。换句话说,OCR 2证明了DeepSeek具备做好视觉编码的潜力,但从“能读文档”到“能看视频、听语音、理解自然场景”,中间隔着一整个技术代际。
与此同时,其他大厂早已进入“全模态”竞争阶段。字节的Seedance 2.0证明了优秀多模态模型的巨大用户基础和商业潜力。GPT-5.4已原生支持音频、视频乃至计算机操作。有消息称,梁文锋近半年的主要工作之一就是补齐视觉内容处理的短板。
第二块短板是智能体(Agent)能力。
DeepSeek官方微信公众号自己置顶的文章标题就是“迈向Agent时代的第一步”,这足以说明梁文锋清楚行业的前进方向。

随着OpenClaw被越来越多人使用,无论是大厂还是小厂,都在强调自身模型的Agent能力。Kimi K2.5已经能够自主调度100个子智能体、并行处理1500个步骤。ChatGPT的智能体功能可以自动填表、订机票、跨网站拉取信息。Anthropic则推出了Agent Teams,让多个AI协同完成复杂任务。
第三块短板是AI编程能力。
这是2026年发展最快、商业化最成熟的赛道之一。在编程基准测试SWE-bench Verified上,Claude Opus 4.6得分为80.8%,GPT-5.3 Codex约为80%,而DeepSeek V3.2为73.1%。在难度更高的SWE-bench Pro测试中,DeepSeek V3.2得分为40.9%,远低于GPT-5.4的57.7%。
更为关键的是,行业已从早期的“氛围编程”(Vibe Coding)进化到了“智能体工程”(Agentic Engineering)阶段,目标是让AI独立完成工程级任务。智谱的GLM-5论文标题就直接命名为《From Vibe Coding to Agentic Engineering》,其模型能连续运行24小时代码、进行700次工具调用、800次上下文切换,从零构建出一个GBA模拟器。尽管此前有爆料称DeepSeek-V4的内部测试在编程能力上超越了Claude Sonnet 3.5,但后者目前已被Anthropic官方正式停用。
第四块短板是AI搜索与事实准确性。
如今,几乎所有主流聊天机器人产品都默认联网,单纯将“联网搜索”设为一个独立开关的APP已不多见。OpenAI有ChatGPT Search,Google有Gemini Embedding 2搜索。相比之下,DeepSeek的搜索能力一直是其短板,且搜索结果时常出现“幻觉”。
Vectara的测试数据显示,DeepSeek R1的幻觉率高达14.3%,几乎是V3(3.9%)的四倍。在学术引用检索测试中,情况更为严峻,其引用的结果中有高达91.43%是错误的,包括捏造论文标题、虚构DOI号、张冠李戴作者等。DeepSeek自己也承认,幻觉是当前阶段“不可避免”的问题。
究其原因,一方面,DeepSeek缺乏自建的搜索基础设施,依赖第三方接口导致信息源质量不可控;另一方面,模型本身的事实核查能力不够强,即使获得了正确的检索结果,也可能在答案生成环节引入错误。两者叠加,造成了用户体验上的“搜了也不一定准”。在Agent时代,可靠的信息获取与验证不是加分项,而是必选项。
DeepSeek面临的这些短板,没有一块是能够通过小修小补解决的。梁文锋不仅仅是在开发一个更强的“V系列”模型,他是在同时进行多场攻坚战。
四月已近在眼前。但即便再次“跳票”,也无需过于意外。对梁文锋而言,“不发”永远比“发错”更重要。这场关于人工智能未来形态的竞赛,耐心与精准,或许比速度更为关键。关于AI模型记忆与学习的更多深度探讨,欢迎在云栈社区与广大开发者交流。