3月16日晚,特斯拉CEO埃隆·马斯克在社交平台上公开点赞了中国人工智能公司月之暗面(Kimi)的一项最新研究成果,称其“令人印象深刻”。这番评价,瞬间将一项名为“Attention Residuals”(注意力残差)的国产大模型前沿技术推到了聚光灯下。

马斯克在社交媒体上对Kimi团队的研究表示赞赏
随着技术论文的公开,署名作者列表引发了广泛关注。排在首位的Guangyu Chen(陈广宇),竟是来自广东深圳的一名17岁在读高中生。论文附录信息显示,陈广宇与张宇、苏剑林三人被列为同等贡献的共同第一作者,其余34位参与者则未标注此资格。其中,张宇是Kimi高效模型架构的核心研发者,而苏剑林则是业内著名的旋转位置编码(RoPE)的提出者。
令人惊讶的是,陈广宇系统性地深入人工智能领域不过短短一年。 在起步阶段,他主要依靠自主研读前沿论文、追踪 GitHub 上的热门开源项目等方式,快速构建起了AI领域的理论知识与实践基础。去年暑假,他前往旧金山完成了为期7周的实习。回国后,于去年11月正式以实习生身份加入了Kimi团队。
论文发布后,陈广宇在个人社交圈分享了这一成果,并特别感谢了另外两位同等贡献的作者,以及负责模型扩展与基础设施搭建的同事。他低调地回应外界的关注,强调这是“团队成果”,并希望大家“不要造神”。
那么,这项获得马斯克肯定的技术究竟是什么呢?根据Kimi团队发布的技术报告,他们提出了一种全新的 Attention Residuals 机制。这项技术旨在对深度学习领域沿用近十年的传统残差连接进行重构,可以说是一次底层思路的革新。
简单来说,Kimi的创新相当于为AI模型装上了一个“智能筛选器”。 传统残差连接在将信息从浅层传递到深层时,采用的是固定、均匀的累积方式。而Attention Residuals的核心思想,是将 Transformer 中经典的注意力机制迁移到模型的深度维度上。它让网络的每一层都能动态地评估之前所有层传递来的信息,主动筛选出有用的部分,同时抑制冗余信息,从而显著提升信息在深度网络中的传递效率。

月之暗面(Kimi)AI应用界面
这项研究不仅展示了大模型公司在核心算法上的持续探索,也折射出AI领域人才成长的多元路径。年轻开发者通过 GitHub 等开源平台汲取养分,并有机会在顶尖团队中将创意转化为实际成果,正在成为技术突破的新常态。对于更多有志于投身技术研发的年轻人而言,这无疑是一个积极的信号。想了解更多此类前沿动态与深度技术解析,欢迎关注 云栈社区 的讨论。
|