云栈社区»论坛 › 开发者广场「Dev Plaza」 › Kimi创始人GTC演讲：开源模型三大扩展策略与AI研究范式转变 ...

发回帖发新帖

4451 积分	0 好友	642 主题

发消息

Kimi创始人GTC演讲：开源模型三大扩展策略与AI研究范式转变

发表于 2026-3-24 02:17:20 | 查看: 97| 回复: 0

上周，月之暗面CEO杨植麟在GTC 2026现场发表了主题分享，系统阐述了Kimi在过去构建更强开源模型方面的核心经验与策略。

杨植麟在开场引用了黄仁勋在CES演讲中的一张图表，指出开源模型与闭源模型的性能差距正快速收敛，让“智能民主化”从口号变成现实路径。

Kimi创始人杨植麟在GTC 2026发表演讲

开源模型性能迅速逼近前沿水平

但紧接着他提出了一个关键观点：开源模型不能只是“开源”，它还必须足够优秀。 整场分享的核心逻辑便在于此——开源模型要赢得未来，就必须在能力上变得足够强。

为此，Kimi提出了一个“三位一体”的“多维扩展”方法，覆盖了模型能力提升的三个关键维度：

Token效率：决定智能的上限。
长上下文：重构任务边界，决定模型能做多复杂的事。
智能体集群：让模型具备“系统能力”，从个体智能升级为组织智能。

Kimi模型扩展的三大策略：Token效率、长上下文与智能体集群

Token效率：用优化器“创造数据”

几乎所有重要的AI进展都离不开规模扩展，其中最经典的就是Scaling Law：随着训练token数量、模型参数和计算量的增加，模型的损失会持续下降。但Kimi更关注的是如何提升Token效率，即用更少的训练数据达到更低的损失。

杨植麟强调，Token效率不只是节省算力的问题，它实质上决定了智能的上限。在高质量数据总量有限的现实下，提升Token效率意味着能逼近更高的智能边界。例如，若有50万亿高质量token，通过将Token效率提升2倍，等效上就相当于拥有了100万亿token的效果。

为此，Kimi重点投入了Muon优化器的研究。这是一个二阶优化器，通过对梯度更新进行变换，使各分量相互正交，从而带来约2倍的Token效率提升。

Muon优化器带来约2倍的Token效率提升

Muon优化器在大规模LLM训练中的扩展实现

Kimi团队首次证明了此类优化器可以扩展至大规模Transformer模型训练，其工程实现包含两个关键：引入decay以适应更大模型，以及保持与Adam相似的RMS更新。同时，他们还设计了分布式算法以降低内存开销。

然而，当模型规模扩展到万亿参数时，训练出现了不稳定性：logits最大值迅速爆炸，超过1000，导致训练发散。

大规模Muon训练中出现的不稳定性

为解决此问题，Kimi引入了QK-Clip技术。其核心思路是，在前向传播时计算每个注意力头的最大logit值，并据此动态缩放query和key的投影权重，将其限制在合理范围内，从而避免数值爆炸。

Taming Muon with QK-Clip算法伪代码

实验表明，QK-Clip技术能有效稳定训练，将最大logits值稳定截断在100左右，且不影响损失下降过程，最终成功将K2模型扩展至万亿参数规模。

MuonClip实现了稳定的训练过程

长上下文：Kimi Linear架构的诞生

第二个扩展维度是上下文长度。长上下文能力对于处理复杂任务至关重要，尤其是在智能体时代，任务往往需要模型能够理解并处理极其冗长的信息。

杨植麟引用了Kaplan定律论文中的一个“隐藏宝藏”图表，解释了Transformer相对于LSTM的优势根源：随着上下文位置增加，Transformer的损失持续下降，而LSTM很快达到平台期。这表明Transformer天生更擅长利用长程依赖。

Transformer与LSTM在长上下文利用上的对比

基于此，Kimi的目标是设计一种既能高效扩展上下文长度，又能在长序列中保持低损失的新架构，于是提出了 Kimi Linear。

Kimi Linear包含一种新的线性注意力变体Kimi Delta Attention，它在原有delta rule基础上增强了递归记忆管理。其核心创新在于将记忆衰减因子从标量升级为对角矩阵，使得模型的不同通道可以拥有独立的衰减速率，从而实现对信息的细粒度、选择性保留与遗忘，大幅提升了表达能力。

Kimi Linear架构的核心公式与运算可视化