云栈社区»论坛 › 开源实战「 OpenSource 」 › DeepSeek开源Engram条件记忆模块，为MoE模型引入存算分离新范式 ...

发回帖发新帖

3812 积分	0 好友	524 主题

发消息

[Python] DeepSeek开源Engram条件记忆模块，为MoE模型引入存算分离新范式

发表于 2026-1-14 03:11:29 | 查看: 66| 回复: 0

DeepSeek最新开源的“记忆”模块在技术社区引发了广泛讨论。当行业仍在为扩大模型参数量而激烈竞争时，DeepSeek与北京大学的研究者们提出了一个颠覆性的思路：给稀疏模型引入“条件记忆”。这一创新使得大模型得以从根本上摆脱用昂贵计算动态重建静态查表的低效模式，为下一代稀疏模型奠定了一种全新的基础范式。

研究团队引入 Engram模块 以实现条件记忆，该项目上线不足24小时便在GitHub斩获1.2k star，同时在社交平台上引发技术圈火热讨论，包括PyTorch核心维护者Dmytro Dzhulgakov在内的不少专业开发人员对其表示认可。

DeepSeek Engram论文标题页

Engram GitHub仓库页面

论文链接：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
项目地址：https://github.com/deepseek-ai/Engram

条件记忆：下一代稀疏模型基础建模范式

MoE（混合专家模型）通过条件计算扩展模型容量，以低计算开销实现模型规模大幅提升，已成为前沿大模型的核心架构选择。

然而，语言建模本质上包含两类子任务：组合推理与知识检索。组合推理需要深度、动态的计算；而知识检索对应的文本内容（如命名实体、公式化表达）具有局部、静态且高度刻板化的特点。经典的N-gram模型在捕捉此类局部依赖关系上十分有效，这些规律天然适合以低计算成本的查表操作来表示。

尽管条件计算范式取得了巨大成功，但Transformer架构缺乏原生的知识查表机制，迫使当前的大语言模型必须通过复杂的计算来模拟检索过程。例如，解析一个常见的多词元实体往往需要消耗多个早期注意力层和前馈网络。该过程本质上是在运行时以高昂代价重建一个静态查表，导致宝贵的序列深度被大量耗费在琐碎操作上。如果采用直接查表机制，这些计算资源便可被释放，用于更高层次的推理。

为了使模型架构更好地契合语言的这种双重特性，DeepSeek联合北京大学的学者们提出了条件记忆的概念，为大模型引入了一种全新的稀疏化维度。如果说条件计算是通过稀疏激活参数来处理动态逻辑推理任务，那么条件记忆则通过稀疏查表操作，高效检索用于表征固定知识的静态嵌入。

研究团队引入 Engram模块 来实现条件记忆。该模块对经典的N-gram嵌入进行现代化改造，可支持 O(1) 常数时间 查表操作，成为MoE架构的理想补充。Engram采用了四项核心技术：分词器压缩、多头哈希、上下文门控以及多分支集成。

Engram系统训练与推理实现示意图

为了量化模型推理和知识检索之间的协同效应，研究团队将其形式化为“稀疏分配问题”：在总参数预算固定的前提下，应如何在MoE专家和Engram记忆之间分配容量？通过实验，团队揭示了一条U形扩展定律，表明在MoE专家与Engram记忆之间进行混合分配稀疏容量，其效果会优于纯MoE基线模型。

Engram稀疏性分配与扩展定律图

依据该分配规律，研究团队将Engram参数规模扩展至270亿。在多个领域的基准测试中，搭载Engram的模型均取得了更优的性能。值得注意的是，尽管记忆模块从设计直觉上聚焦于提升知识检索能力，但其在通用推理、代码和数学任务上的增益幅度反而更为突出。

不同模型预训练性能对比表格

从机制上看，Engram减轻了主干网络在早期层重建静态知识的负担，从而释放出更多有效深度用于复杂推理。此外，通过将局部依赖交由查表处理，Engram释放了注意力机制的容量，使其能更专注于全局上下文，从而大幅提升长上下文处理能力。

不同模型长上下文性能对比表格

在工程实现上，Engram采用了面向基础设施的高效设计。其确定性的寻址机制支持在推理运行时从主机内存预取数据，实现通信与计算重叠。实验结果表明，将一个1000亿参数规模的查表卸载至主机内存所带来的额外开销微乎其微（< 3%）。研究团队相信，条件记忆将成为下一代稀疏模型中不可或缺的基础建模范式。

社区热议：技术方向引发电光火石

Engram的核心创新之一，在于其O(1)复杂度的哈希N-gram查找机制。它可以高效存储和检索静态、重复性强的模式信息，从而避免模型在每一次推理中反复“思考”这些已知内容。这项在GitHub上开源的实战项目迅速吸引了开发者的目光。

有技术评论者将这一机制形象地比喻为：为模型配备了一块“高速外存”。

网友评论Engram如同快速外部存储器

PyTorch核心维护者之一Dmytro Dzhulgakov对DeepSeek开源的Engram工作表达了积极态度，并指出其理念与他曾在Meta参与的深度推荐系统工作有相似之处，都涉及n-gram、有损嵌入哈希等技术。

PyTorch维护者评论Engram

也有业界观察者提出了更深入的思考，认为降低召回成本固然有用，但真正的考验在于这项技术是否能在长期运行中，处理混乱的真实输入时减少错误，而不仅仅是在干净的基准测试上表现出更深的推理能力。这触及了人工智能技术从实验室走向实际应用的核心挑战。

对Engram技术实用性的深度讨论

当然，社区反应也不乏幽默。有国外开发者调侃道：“好吧，没什么，我本来打算从谷歌‘借鉴’的，现在不得不从DeepSeek‘借鉴’了，他们做得更好，Engram比某些方法强，你还能怎么办？”

国外网友幽默评论

一些评论则显得更为辩证。有用户表示，这种方法初看可能有些“粗糙”，像MoE一样引入了特定的归纳偏置。但利用计算瓶颈来强制分离学习记忆和推理能力，这个想法本身又非常诱人且直观。这可能是一种过渡性的创新，直到我们找到能更优雅地学习动态计算与内存的统一目标。

对Engram方法论的辩证讨论

Engram的潜力也激发了人们对未来应用场景的想象。例如在AIGC与内容创作领域，有观点认为，作为大语言模型的记忆模块，Engram可能意味着更智能的AI视频工具能够记住用户的编辑风格，从而实现更快的渲染速度和个性化模板，为内容自动化的未来增添“记忆力”。

对Engram在AIGC领域应用的展望

更高的评价则认为，Engram正在为真正具备可更新内存的AI铺平道路。想象一下，模型能够完全绕过传统的RAG（检索增强生成），自主总结对话并将有用的上下文信息直接“嵌入”到自身的内存槽中。无论是用于长期角色扮演还是创建数字员工，用户都不再需要反复进行提示词注入，角色和情境本身将成为其参数的一部分。

对Engram实现可更新内存的高度评价

国内的技术爱好者则从工程和硬件角度提出了有趣构想：未来是否可能实现“可插拔”的Engram？尽管论文中Engram嵌入表是端到端训练的，但未来或许可以抽象出一个中间层，使其变得可插拔。这样，无需重新训练专家网络就能更新模型知识；或者在知识不变的情况下，仅重新训练较小的专家部分就能提升模型性能，从而将模型更新周期从数月缩短至数周。

国内网友对可插拔Engram的构想

与此同时，关于DeepSeek-V4的预测也纷至沓来。考虑到V2引入了MLA（多头潜在注意力），V3优化了MoE并引入无损负载均衡，社区普遍猜测V4很可能会融入Engram技术，形成“MoE + Engram”的双稀疏架构，在推理效率、知识密集型任务和长上下文处理上实现新的突破。

对DeepSeek-V4架构的预测与展望

技术展望：架构创新推动范式转变

在架构革新的浪潮中，DeepSeek与北京大学提出的Engram，通过减轻主干网络在早期层重建静态知识的负担，使其更专注于高阶逻辑推理与泛化，为下一代稀疏大模型提供了全新的技术路径。

此前，DeepSeek提出的mHA架构（数学同态注意力）确保了“思考系统”本身的稳健与高效。它通过数学约束稳定了深层网络的信息流，为复杂推理提供了可靠的基础架构。

以此为镜，V4的进化可能不在于参数的单纯堆砌，而在于通过系统性的架构创新，重新定义大模型的能力边界与效率极限。在Engram与mHA等前沿技术的协同下，V4或将真正实现“高效计算+结构化记忆”的混合智能范式，引领AI迈向一个更高效、更可靠、更具认知深度的新时代。

值得注意的是，多方信息显示，DeepSeek V4有望在2026年农历春节前后发布，延续其“节日窗口”的发布传统。这一时间节点的选择，不仅象征着技术突破的“辞旧迎新”，更可能预示着一次重要的范式转变。这场即将到来的技术盛宴，值得所有关注前沿技术动态的开发者社区共同期待。

上一篇：树莓派数据库选择指南：MySQL、SQLite、MongoDB、PostgreSQL、InfluxDB安装与性能对比
下一篇：CSS-in-JS性能代价与陷阱：为何现代CSS原生方案是更优解

Engram, MoE, 稀疏模型, 条件记忆, 大语言模型

[Python] DeepSeek开源Engram条件记忆模块，为MoE模型引入存算分离新范式

条件记忆：下一代稀疏模型基础建模范式

社区热议：技术方向引发电光火石

技术展望：架构创新推动范式转变

相关帖子