找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2496

积分

0

好友

338

主题
发表于 1 小时前 | 查看: 1| 回复: 0

Token,正在成为AI时代的水和电。谁能在有限的算力下挤压出更高的Token效率,谁就能在这场激烈的技术竞赛中占据更持久的优势。这或许可以解释,为何今年英伟达GTC大会的关注点,正悄然从“谁拥有更多GPU”转向“谁能更聪明地使用GPU”。

英伟达CEO黄仁勋在GTC大会发表演讲

刚刚在GTC大会上发表演讲的月之暗面(Moonshot AI)创始人杨植麟,其演讲的一个重要主题正是Token效率。这很可能也是他受邀登上这一顶级舞台的原因之一。

杨植麟的演讲主题《How We Scaled Kimi K2.5》首次完整披露了Kimi下一代模型的技术路线图。他将Kimi的进化逻辑凝练为三个核心维度:

  • Token效率:以MuonClip优化器替代已服役11年的Adam,实现Token效率翻倍。
  • 长上下文:基于Kimi Linear架构,在128K至1M的上下文窗口内,解码速度提升5-6倍。
  • 智能体集群:引入Orchestrator编排器,协调多个AI Agent并行协作。

Kimi下一代模型技术路线图,涵盖Token效率、长上下文和智能体集群三大方向

然而,真正引起业界广泛关注的,是他在演讲中提及的第三项底层创新:Attention Residuals(注意力残差)

介绍Attention Residuals技术的幻灯片截图

就在GTC召开前两天,Kimi团队正式发布了这项研究的技术报告。马斯克在转发这篇论文时毫不吝啬地称赞道:“Impressive work from Kimi”。

马斯克在社交媒体上称赞Kimi工作的截图

前特斯拉AI总监、OpenAI创始成员之一的Andrej Karpathy在研读后也半开玩笑地评论道:我们是不是对“注意力机制就是一切”这句话理解得还不够透彻?

Andrej Karpathy关于注意力机制的推文截图

一篇看似“只”改动了残差连接(Residual Connection)的论文,为何能引发如此高的关注?这要从残差连接本身说起。

ATTENTION RESIDUALS技术报告首页

残差连接,这个由ResNet在2015年提出的概念,其核心操作简单得惊人:每一层的输出,等于上一层的输入(即“残差流”)加上本层计算产生的结果。正是这个简单的加法操作,使得训练成百上千层的深度神经网络成为可能,也为后来Transformer架构的稳定训练奠定了基础。

但问题也随之而来:这个加法的权重恒定为1。

这意味着,在信息从第一层流向最后一层的过程中,每一层的贡献都被等权重复制并累加。这好比一个学生上了40门课,期末复习时却不分重点地将所有课堂笔记等量堆叠在一起看。

其结果就是:

  • 早期输入的重要信息,在传递到深层网络时已被严重稀释。
  • 深层网络若想对最终输出产生显著影响,其“计算声音”必须比前面所有层加起来还要“响亮”。
  • 甚至有研究表明,许多大模型中相当一部分中间层可以被直接“修剪”掉,而模型性能几乎不受影响。

大语言模型中层间信息稀释问题的科普示意图

这个沿用近十年的设计,并非完美,只是“足够好用”让人们失去了深入追问的动力。

业界并非没有尝试改进。例如,DeepSeek在去年底提出的mHC(流形约束超连接)架构,其核心思路是让残差连接的权重从固定值变为可学习的参数,让模型自己学会如何混合各层信号。

对比标准残差连接、超连接和流形约束超连接的结构图

这个方向是正确的,但仍存在一个根本性局限:这些学习到的权重在训练完成后就被固定下来。 无论输入什么内容,模型各层之间信号的混合方式都是一成不变的。更重要的是,信息一旦被混合进累积的“状态”中,就无法再被单独检索和审视。

Kimi团队的Attention Residuals则提出了一个更根本的解决方案,其灵感来源于一个精妙的类比。

把Transformer的注意力机制“旋转90度”

标准的Transformer在处理一个序列时,其注意力机制是“横向”工作的:序列中的每个词(Token)都可以“回头看”前面所有的词,并根据语义相关性动态分配注意力权重。

Kimi团队思考:为什么这种动态的、内容感知的注意力机制,不能应用在网络的“纵向”,即深度维度上呢?

于是,他们提出了将注意力机制“旋转90度”的构想——从序列维度转向层与层之间的深度维度。

具体而言,在Attention Residuals架构下,每一层(或每一组层)都配备了一个可学习的查询向量(Query)。这个Query会对所有前序层(或前序模块)的输出(作为Key和Value)做注意力计算。这样,模型就能根据当前处理的内容,动态决定哪些深层或浅层的特征更为重要,并给予相应的权重,无关紧要的层则会被自动忽略。

横向注意力(序列维度)与纵向注意力(深度维度)的对比示意图

回到学生的比喻:现在他拥有了一套智能复习系统。面对每道具体的题目(即不同的模型输入),系统会实时分析并动态地从40门课的笔记中,筛选出与当前题目最相关的几份重点进行复习。

智能系统动态筛选相关信息的示意图

最关键的区别在于,这种层间的注意力权重是完全动态、输入相关的,而非训练后固定不变的。

效果:近乎免费的性能提升,等效于节省20-25%算力

在工程实现上,为了平衡效果与开销,Kimi团队采用了“块注意力残差”设计:将整个模型划分为约8个块(Block),块内部使用传统残差连接以保证效率,块与块之间则应用动态的注意力残差连接。最终,这项改进带来的额外推理延迟不到2%,代价几乎可以忽略不计。

在Kimi自家的48B总参数(3B激活参数)的Kimi Linear模型上进行验证,Attention Residuals带来了显著的性能提升:

  • GPQA-Diamond(科学推理):+7.5分
  • MATH(数学):+3.6分
  • HumanEval(代码生成):+3.1分

Baseline、Full AttnRes和Block AttnRes三种架构的性能缩放曲线对比图

根据论文中的缩放定律分析,在相同计算预算下,采用Attention Residuals的模型性能更优。反之,要达到相同的性能水平,所需的训练预算减少了约20%。这相当于不增加任何硬件和数据投入,仅通过优化模型内部的信息流动结构,就“白赚”了25%的算力效果。

结语:大模型竞争进入“拆地基”深水区

近年来,大模型的竞争往往被简化为参数规模、数据量和计算卡数量的比拼。然而,从本届GTC传递出的信号来看,风向正在转变。

黄仁勋比任何人都清楚,单纯依赖暴力堆砌算力的时代正在触及天花板。他需要在舞台上展示的,是那些能够“更聪明地运用算力”的创新者。

杨植麟在GTC上展示的MuonClip优化器、Kimi Linear架构以及Attention Residuals,无一不在回答同一个核心命题:如何用更少的资源,训练出能力更强的模型。

Adam优化器用了11年,注意力机制成为主流已8年,残差连接更是基石般的存在了10年。这些底层组件并非不可撼动,只是大多数人默认为“无需改动”。

当整个行业仍在思考如何获取更多算力时,真正的突破或许正来自于思考如何让每一单位算力产生的每一个Token都更具价值。这正是像Kimi这样的团队,通过深入开源实战与基础研究,试图向世界展示的方向。

从DeepSeek到Kimi,中国大模型团队的技术创新正触及越来越深的层次:从训练方法和工程技巧,到核心网络架构设计,直至最底层的神经网络信号传递机制。

“大力出奇迹”的叙事已经持续了太久。下一阶段的竞争,无疑将属于那些敢于质疑并动手改造“地基”的人。对于广大开发者和研究者而言,关注这些智能 & 数据 & 云领域最前沿的突破,是保持技术敏锐度的关键。更多深入的技术讨论与资源分享,欢迎访问云栈社区进行交流。




上一篇:华硕推出 ExpertCenter Pro ET900N G3:搭载 NVIDIA GB300,实现 20 PFLOPS 桌面 AI 算力
下一篇:当AI工具集体“宕机”:一次故障如何让50人团队工作流停摆
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-20 11:02 , Processed in 0.483492 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表