3744 积分	0 好友	511 主题

英伟达开源TTT-E2E：无需缓存的记忆压缩，128K上下文处理提速2.7倍

发表于 2026-1-15 06:24:00 | 查看: 65| 回复: 0

提高大模型的长期记忆能力，各路研究机构都在积极出招。作为开源领域的重量级玩家，英伟达近期联合Astera研究所、斯坦福大学、UC伯克利等知名机构，推出了一项名为 TTT-E2E 的新方法。

该方法在128K超长文本上的处理速度比传统的全注意力模型快了2.7倍。在处理长达2M的上下文时，速度提升更是达到了惊人的35倍，且模型性能几乎没有损失。

TTT-E2E与Transformer及Mamba在损失和延迟上的对比

这项技术与之前引发关注的DeepSeek条件记忆模块思路不同。DeepSeek的Engram模块更偏向于“按需查表”的静态学习路径，而英伟达团队则选择了一条动态学习的路线，其核心秘诀在于上下文压缩。

简单来说，TTT-E2E让模型在测试（推理）阶段也能持续学习，通过实时训练将关键信息动态压缩到自身的网络权重中。这样做的好处显而易见：既避免了引入额外缓存带来的存储与计算负担，又能更精准地捕捉长文本中的核心逻辑关系。

给模型装上动态记忆压缩包

TTT-E2E与先前TTT-KVB方法的架构对比图

TTT-E2E并未依赖复杂或特殊的模型架构，其基础是配备了滑动窗口注意力的标准Transformer结构，这使得它更容易被部署和应用。

该方法的核心创新在于，它将处理长文本的挑战从一个架构设计问题，转化为了一个「持续学习」任务。

在测试阶段，模型像往常一样基于当前读取的上下文进行下一个词的预测。但关键区别在于，每读取一段文本，它就会通过梯度下降算法“偷偷地”更新自己的部分参数。通过这种持续的自我训练，模型将读到的文本信息动态地压缩到自身的权重里，从而无需存储海量的中间状态或冗余数据。

为了让模型在测试时能快速适应并高效学习，研究团队在训练阶段引入了元学习进行初始化。具体而言，他们将每个训练序列都模拟成测试序列：先在内循环中对模型进行测试时训练，然后在外循环中优化模型的初始参数。这种端到端的对齐优化确保了模型从一开始就具备了快速适配测试时学习需求的能力。

TTT-E2E训练机制与不同模型在Token索引下的损失曲线

为了在效率与稳定性之间取得平衡，TTT-E2E还设计了三个关键优化策略：

迷你批处理+滑动窗口：将测试时的训练数据划分为多个迷你批次，并结合8K大小的滑动窗口注意力机制。这既缓解了单token梯度更新易导致数值不稳定的问题，又确保了模型能记住批次内的上下文，同时提升了计算的并行度。
精准更新策略：仅更新模型中的MLP层（冻结嵌入层、归一化层和注意力层），并且只更新网络最后1/4的块。这大幅减少了计算开销，同时避免了大规模参数更新带来的知识混乱。
双MLP设计：在需要更新的网络块中，设置两个MLP层。一个静态MLP专门用于保存预训练阶段学到的通用知识，另一个动态MLP则负责吸收和理解新的上下文信息。这种设计有效缓解了模型在学习新知识时“遗忘”旧知识的问题。