云栈社区»论坛 › 回收站「 Recycle Bin 」 › Attention Residuals革新Transformer架构，Kimi团队借深度残差连 ...

发回帖发新帖

5205 积分	0 好友	707 主题

发消息

Attention Residuals革新Transformer架构，Kimi团队借深度残差连接获马斯克关注

发表于 2026-3-18 15:17:38 | 查看: 97| 回复: 0

一篇关于革新深度维度信息聚合方式的技术论文，因其创新的思路和显著的工程效果，吸引了包括埃隆·马斯克在内的业界关注。更引人注目的是，论文的共同一作之一，是一名年仅17岁的高中生。

这项来自 Kimi Moonshot AI 团队的技术，名为 Attention Residuals (AttnRes)。它的核心思想是重新思考 Transformer 架构中深度方向的信息聚合方式。

这并非凭空想象，其灵感来源于一个有趣的观察。Ilya Sutskever 曾说过，LSTM（长短期记忆网络）可以看作是一个旋转了90度的 ResNet（残差网络）。

社交媒体截图：Yulun Du讨论LSTM与ResNet的旋转关系

既然如此，那么后来在序列建模领域取代了LSTM的注意力机制，是否也能“旋转90度”，应用到深度维度上呢？Kimi团队给出了肯定的答案，并实现了它。

马斯克与Karpathy的关注

这项工作的价值很快得到了验证。马斯克在社交媒体上转发了相关消息，并评论道“Impressive work from Kimi”。

埃隆·马斯克赞扬Kimi工作的推文截图

不仅如此，AI领域的知名研究者 Andrej Karpathy 也对此进行了引申思考。他提出了一个有趣的观点：随机梯度下降（SGD）本身也可以被视为一种 ResNet，并质疑我们对“Attention is All You Need”这篇开创性论文的理解是否足够深入。

Andrej Karpathy讨论SGD与ResNet的推文截图

残差连接的局限与“深度注意力”的构想

要理解 Attention Residuals，首先得看清当前主流 Transformer 架构中标准残差连接（Standard Residuals）的局限。

在现代大语言模型普遍采用的 PreNorm（前置归一化）范式下，残差连接的工作原理是：第 N 层的输出 = 第 N 层的计算结果 + 第 N-1 层的输出。这种操作一路累加，使得每一层理论上都能“看到”前面所有层的信息。

但问题在于，这种累加是固定且均匀的。每一层对最终表示的贡献权重都是 1。这就好比一个记忆力超群却不懂取舍的人，把所有经历都以相同的强度塞进大脑。结果是，随着网络深度增加，早期层的信息贡献被严重稀释，难以被有效检索。论文中将此称为“PreNorm 稀释问题”。

更棘手的是，这种无差别的累加会导致隐藏状态的范数随着网络深度无界增长，可能引发训练不稳定。

月之暗面团队的思路很直接：既然问题出在“无差别累加”，那就让网络自己学会“选择性回忆”。他们观察到了一个关键的对偶性：网络处理序列时的“时间维度”和堆叠层时的“深度维度”，在数学结构上是同构的。

既然在时间维度上，注意力机制 可以让当前位置选择性地关注序列中之前任何位置的信息，那么在深度维度上，为什么不能让当前层选择性地关注之前任何层的输出呢？

于是，Attention Residuals 应运而生：

Query：当前层生成一个可学习的伪查询向量。
Key/Value：所有前面层的输出。
聚合：使用注意力机制计算权重，对前面的层输出进行加权求和，替代简单的相加。

Attention Residuals技术报告宣传图

工程挑战与解决方案：Block AttnRes

然而，直接应用上述“完全注意力残差”会带来巨大的计算开销。对于一个 L 层的网络，每一层都需要对前面所有 L-1 层计算注意力，复杂度高达 O(L²)，这在实践中是无法接受的。

为此，论文提出了 Block Attention Residuals 作为高效的解决方案。核心思想是将连续的若干层打包成一个“块”，并对块内的信息进行压缩。

具体操作如下：

将 L 层网络划分为 B 个块。
每个块结束时，将其内部多个层的输出信息压缩成一个单一的“摘要”向量。
后续层在进行注意力计算时，只需要关注这些块级摘要向量以及当前块内实时的层输出，而无需关注历史上每一个单独的层。

标准残差、全注意力残差和块注意力残差的结构对比图

通过这种方法，注意力计算的复杂度从 O(L²) 降低到了 O(L·B)。在实践中，B 可以设置得很小（例如 8 或 16），从而在保持性能的同时大幅降低了内存和通信开销。团队还配合了一系列工程优化，如缓存式流水线通信、序列分片预填充等，以确保其高效运行。

实际效果：在Kimi Linear模型上验证

理论需要实践检验。团队在他们自研的 Kimi Linear 48B 模型上进行了大规模验证。这是一个采用线性注意力的混合专家模型，总参数量480亿，激活参数量为30亿。

实验结果表明，在相同的计算预算下，使用 Attention Residuals 的模型在下游任务上能获得更好的性能。反之，要达到相同的性能水平，所需的训练计算量减少了约 20% ，这相当于获得了 1.25 倍的训练效率提升，而推理延迟仅增加不到2%。

从具体任务来看，在数学推理、代码生成以及多语言理解等多项基准测试中，AttnRes 模型均持平或略优于基线模型。

Baseline与AttnRes模型在多任务上的性能对比表格

最重要的是，Attention Residuals 被设计为一个“即插即用”的模块，可以直接替换现有 Transformer 中的标准残差连接，而无需改动网络的其他部分。这种对 Transformer 架构的深刻反思与改进，正是其价值所在。如果你对这类前沿的模型架构探索感兴趣，可以到人工智能板块了解更多深度讨论。

背后的年轻作者：17岁的高中生

这项引人注目的工作，其共同一作名单中出现了一个特别的名字：陈广宇，一位年仅17岁的高中生。

Nathan Chen的个人资料页面截图

论文的另外两位共同一作是 Kimi 团队的关键人物：提出 RoPE 旋转位置编码的苏剑林，以及 Kimi Linear 的第一作者张宇。团队后来澄清，这是一项需要算法与基础设施协同设计、实验与理论相互补充的复杂工作，是集体智慧的结晶。但一名高中生能深度参与其中并与两位资深研究者共列一作，已然非同寻常。

关于论文作者讨论的社交媒体截图

陈广宇的成长轨迹颇具启发性。大约一年前，他对大模型还知之甚少。通过一场北京的黑客松，他结识了创业导师，并由此决定转向钻研底层技术。在资深研究员的指导下，他从阅读经典论文、追踪 GitHub 上的热门开源项目开始，逐步构建自己的知识体系。一次在社交媒体上分享的技术思考，甚至为他赢得了一家硅谷AI初创公司的实习机会。

在经历了硅谷的高强度实习后，他于去年11月正式加入月之暗面。吸引他的，正是 Kimi 团队在高效注意力机制（如 Flash Linear Attention）上的前沿工作。可以说，他是被最底层的技术所吸引，并最终投身于最核心的研发之中。这样的成长故事，也常在开发者广场被大家津津乐道。

Nathan Chen的个人履历截图

他的经历或许不是一个“天才速成”的神话，而更像是一个被前沿技术点燃兴趣，并通过持续学习和实践，一步步将兴趣转化为扎实能力，最终走进大模型研发核心舞台的路径。对于广大开发者和技术爱好者而言，关注并参与这类开源实战项目，正是提升能力、跟上时代步伐的重要方式。

这项研究不仅为 Transformer 架构的优化提供了新思路，其背后的团队故事也展示了 AI 研发领域的多样性与活力。技术的突破往往源于对基础组件的重新审视，而人才的涌现则没有固定的模板。想了解更多类似的深度技术解析和行业动态，欢迎持续关注云栈社区。

论文地址：
https://github.com/MoonshotAI/Attention-Residuals/

参考链接：
https://mp.weixin.qq.com/s/gRR99pEDWb5qsk2a2hwe2w
https://nathanchen.me/public/About%20me.html

上一篇：大语言模型(LLM)持续学习：核心技术路径、挑战与动态知识整合机遇
下一篇：Dubbo 3.x 升级实战指南：从 3.0.10 到 3.1.11/3.2.16 踩坑记录与兼容性处理

Transformer, 注意力残差, 残差连接, MoE, 模型优化