找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4186

积分

0

好友

574

主题
发表于 1 小时前 | 查看: 6| 回复: 0

一篇关于革新深度维度信息聚合方式的技术论文,因其创新的思路和显著的工程效果,吸引了包括埃隆·马斯克在内的业界关注。更引人注目的是,论文的共同一作之一,是一名年仅17岁的高中生。

这项来自 Kimi Moonshot AI 团队的技术,名为 Attention Residuals (AttnRes)。它的核心思想是重新思考 Transformer 架构中深度方向的信息聚合方式。

这并非凭空想象,其灵感来源于一个有趣的观察。Ilya Sutskever 曾说过,LSTM(长短期记忆网络)可以看作是一个旋转了90度的 ResNet(残差网络)。

社交媒体截图:Yulun Du讨论LSTM与ResNet的旋转关系

既然如此,那么后来在序列建模领域取代了LSTM的注意力机制,是否也能“旋转90度”,应用到深度维度上呢?Kimi团队给出了肯定的答案,并实现了它。

马斯克与Karpathy的关注

这项工作的价值很快得到了验证。马斯克在社交媒体上转发了相关消息,并评论道“Impressive work from Kimi”。

埃隆·马斯克赞扬Kimi工作的推文截图

不仅如此,AI领域的知名研究者 Andrej Karpathy 也对此进行了引申思考。他提出了一个有趣的观点:随机梯度下降(SGD)本身也可以被视为一种 ResNet,并质疑我们对“Attention is All You Need”这篇开创性论文的理解是否足够深入。

Andrej Karpathy讨论SGD与ResNet的推文截图

残差连接的局限与“深度注意力”的构想

要理解 Attention Residuals,首先得看清当前主流 Transformer 架构中标准残差连接(Standard Residuals)的局限。

在现代大语言模型普遍采用的 PreNorm(前置归一化)范式下,残差连接的工作原理是:第 N 层的输出 = 第 N 层的计算结果 + 第 N-1 层的输出。这种操作一路累加,使得每一层理论上都能“看到”前面所有层的信息。

但问题在于,这种累加是固定且均匀的。每一层对最终表示的贡献权重都是 1。这就好比一个记忆力超群却不懂取舍的人,把所有经历都以相同的强度塞进大脑。结果是,随着网络深度增加,早期层的信息贡献被严重稀释,难以被有效检索。论文中将此称为“PreNorm 稀释问题”。

更棘手的是,这种无差别的累加会导致隐藏状态的范数随着网络深度无界增长,可能引发训练不稳定。

月之暗面团队的思路很直接:既然问题出在“无差别累加”,那就让网络自己学会“选择性回忆”。他们观察到了一个关键的对偶性:网络处理序列时的“时间维度”和堆叠层时的“深度维度”,在数学结构上是同构的。

既然在时间维度上,注意力机制 可以让当前位置选择性地关注序列中之前任何位置的信息,那么在深度维度上,为什么不能让当前层选择性地关注之前任何层的输出呢?

于是,Attention Residuals 应运而生:

  • Query:当前层生成一个可学习的伪查询向量。
  • Key/Value:所有前面层的输出。
  • 聚合:使用注意力机制计算权重,对前面的层输出进行加权求和,替代简单的相加。

Attention Residuals技术报告宣传图

工程挑战与解决方案:Block AttnRes

然而,直接应用上述“完全注意力残差”会带来巨大的计算开销。对于一个 L 层的网络,每一层都需要对前面所有 L-1 层计算注意力,复杂度高达 O(L²),这在实践中是无法接受的。

为此,论文提出了 Block Attention Residuals 作为高效的解决方案。核心思想是将连续的若干层打包成一个“块”,并对块内的信息进行压缩。

具体操作如下

  1. 将 L 层网络划分为 B 个块。
  2. 每个块结束时,将其内部多个层的输出信息压缩成一个单一的“摘要”向量。
  3. 后续层在进行注意力计算时,只需要关注这些块级摘要向量以及当前块内实时的层输出,而无需关注历史上每一个单独的层。

标准残差、全注意力残差和块注意力残差的结构对比图

通过这种方法,注意力计算的复杂度从 O(L²) 降低到了 O(L·B)。在实践中,B 可以设置得很小(例如 8 或 16),从而在保持性能的同时大幅降低了内存和通信开销。团队还配合了一系列工程优化,如缓存式流水线通信、序列分片预填充等,以确保其高效运行。

实际效果:在Kimi Linear模型上验证

理论需要实践检验。团队在他们自研的 Kimi Linear 48B 模型上进行了大规模验证。这是一个采用线性注意力的混合专家模型,总参数量480亿,激活参数量为30亿。

实验结果表明,在相同的计算预算下,使用 Attention Residuals 的模型在下游任务上能获得更好的性能。反之,要达到相同的性能水平,所需的训练计算量减少了约 20% ,这相当于获得了 1.25 倍的训练效率提升,而推理延迟仅增加不到2%。

从具体任务来看,在数学推理、代码生成以及多语言理解等多项基准测试中,AttnRes 模型均持平或略优于基线模型。

Baseline与AttnRes模型在多任务上的性能对比表格

最重要的是,Attention Residuals 被设计为一个“即插即用”的模块,可以直接替换现有 Transformer 中的标准残差连接,而无需改动网络的其他部分。这种对 Transformer 架构的深刻反思与改进,正是其价值所在。如果你对这类前沿的模型架构探索感兴趣,可以到 人工智能 板块了解更多深度讨论。

背后的年轻作者:17岁的高中生

这项引人注目的工作,其共同一作名单中出现了一个特别的名字:陈广宇,一位年仅17岁的高中生。

Nathan Chen的个人资料页面截图

论文的另外两位共同一作是 Kimi 团队的关键人物:提出 RoPE 旋转位置编码的苏剑林,以及 Kimi Linear 的第一作者张宇。团队后来澄清,这是一项需要算法与基础设施协同设计、实验与理论相互补充的复杂工作,是集体智慧的结晶。但一名高中生能深度参与其中并与两位资深研究者共列一作,已然非同寻常。

关于论文作者讨论的社交媒体截图

陈广宇的成长轨迹颇具启发性。大约一年前,他对大模型还知之甚少。通过一场北京的黑客松,他结识了创业导师,并由此决定转向钻研底层技术。在资深研究员的指导下,他从阅读经典论文、追踪 GitHub 上的热门开源项目开始,逐步构建自己的知识体系。一次在社交媒体上分享的技术思考,甚至为他赢得了一家硅谷AI初创公司的实习机会。

在经历了硅谷的高强度实习后,他于去年11月正式加入月之暗面。吸引他的,正是 Kimi 团队在高效注意力机制(如 Flash Linear Attention)上的前沿工作。可以说,他是被最底层的技术所吸引,并最终投身于最核心的研发之中。这样的成长故事,也常在 开发者广场 被大家津津乐道。

Nathan Chen的个人履历截图

他的经历或许不是一个“天才速成”的神话,而更像是一个被前沿技术点燃兴趣,并通过持续学习和实践,一步步将兴趣转化为扎实能力,最终走进大模型研发核心舞台的路径。对于广大开发者和技术爱好者而言,关注并参与这类 开源实战 项目,正是提升能力、跟上时代步伐的重要方式。

这项研究不仅为 Transformer 架构的优化提供了新思路,其背后的团队故事也展示了 AI 研发领域的多样性与活力。技术的突破往往源于对基础组件的重新审视,而人才的涌现则没有固定的模板。想了解更多类似的深度技术解析和行业动态,欢迎持续关注 云栈社区

论文地址
https://github.com/MoonshotAI/Attention-Residuals/

参考链接
https://mp.weixin.qq.com/s/gRR99pEDWb5qsk2a2hwe2w
https://nathanchen.me/public/About%20me.html




上一篇:大语言模型(LLM)持续学习:核心技术路径、挑战与动态知识整合机遇
下一篇:Dubbo 3.x 升级实战指南:从 3.0.10 到 3.1.11/3.2.16 踩坑记录与兼容性处理
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-18 17:13 , Processed in 0.476987 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表