云栈社区»论坛 › 开源实战「 OpenSource 」 › SALA稀疏-线性混合注意力架构解析：9B模型实现3.5倍推理加速与超 ...

发回帖发新帖

3464 积分	0 好友	474 主题

发消息

[Python] SALA稀疏-线性混合注意力架构解析：9B模型实现3.5倍推理加速与超长上下文处理

发表于 7 天前 | 查看: 29| 回复: 0

众所周知，Transformer 及其核心的全注意力机制（Full Attention）虽长期占据大模型架构的核心地位，但其平方级计算复杂度与高额显存占用，早已成为实现超长上下文处理与规模化应用的“拦路虎”。敢于挑战这一现状，需要的不仅是追求 AGI 目标的魄力，更需要独到的技术视野与突破壁垒的硬实力。从 DeepSeek 的稀疏注意力（DSA）、MiniMax 的线性注意力，到月之暗面的线性注意力（KDA），各路研究力量纷纷投入注意力架构的革新竞技场。

今天，面壁智能也在这场变革中迈出了关键一步，正式发布行业首个大规模训练的稀疏-线性注意力混合架构 SALA（Sparse Attention-Linear Attention，简称SALA），以及基于该架构的文本模型 MiniCPM-SALA，其核心目标是追求更长的文本处理能力与极致的推理性价比。

MiniCPM-SALA 亮点一览

架构革新：首创 “稀疏-线性”注意力混合架构，在显著降低推理开销与显存占用的同时，克服了纯线性架构在长程信息召回上的精度瓶颈，实现效率与性能的兼得。
卓越性能：采用混合位置编码来协调短/长上下文性能。在保持与同规模全注意力模型相当的通用能力（如知识、数学、代码）的同时，MiniCPM-SALA 在多个长上下文基准测试中表现突出。
高效推理：不使用投机采样等额外加速算法，在云端芯片上，当序列长度为256K词元时推理速度可达 Qwen3-8B 的 3.5 倍，并支持在云端和消费级端侧 GPU 上进行高达一百万词元上下文长度的推理。

模型资源

GitHub 链接：https://github.com/openbmb/minicpm
HuggingFace 链接：https://huggingface.co/openbmb/MiniCPM-SALA
Model Scope 链接：https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA
GitCode 链接：https://ai.gitcode.com/OpenBMB/MiniCPM-SALA
MiniCPM-SALA 技术报告：https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

为何混合架构是更优解

传统 Transformer 模型在处理长文本时，其全注意力机制会导致计算量呈平方级增长，同时缓存的键值对（KV-Cache）占用大量显存。现有解决方案分为线性注意力与稀疏注意力两大流派，但纯线性注意力存在精度损失，纯稀疏注意力则有存储瓶颈限制。

四种注意力机制性能雷达图

MiniCPM-SALA 提出的稀疏-线性混合注意力架构，巧妙地解决了这一矛盾。模型中 75% 的层采用线性注意力（Lightning Attention），负责精准捕捉局部关键信息；其余 25% 的层采用稀疏注意力（InfLLM-v2），专注于信息的高效全局流转。这一黄金配比实现了计算效率与语义精度的平衡。

MiniCPM-SALA混合注意力架构图

不止于「长」，更在于「强」

MiniCPM-SALA 具备优异的长度泛化能力。在不使用任何外推技术的前提下，可以将训练时使用的上下文长度有效拓展至 2048K。

长上下文评估结果对比表

超长上下文评估结果对比表

在效率方面，从 64K 到 1024K 词元的序列长度测试中，MiniCPM-SALA 在所有配置下均表现出显著优势。在 256K 序列长度下，其推理速度相比 Qwen3-8B 实现了约 3.5 倍的加速。

A6000D显卡推理速度对比图

5090显卡推理速度对比图

更重要的是，在更长序列（512K 及 1M）上，当同尺寸开源模型因显存爆炸（OOM）而无法运行时，MiniCPM-SALA 依旧能够稳定推理，这使其在端侧应用场景中潜力巨大。

此外，在模型仅有 9B 参数的前提下，MiniCPM-SALA 在知识问答、数学推理、代码生成等核心能力维度上，保持了与同规模全注意力模型相当的卓越水平，真正做到了“长短兼备”。

标准能力评估结果对比表

技术报告核心解读

01 引言：为何需要混合架构？

随着大模型应用场景的深化，处理超长上下文（如整本手册、数万行代码）成为关键能力。传统 Transformer 面临两大瓶颈：

计算墙：注意力计算复杂度随序列长度呈二次方增长，导致预填充阶段延迟剧增。
显存墙：自回归生成中存储历史 KV-Cache 占用大量显存。

现有稀疏注意力与线性注意力方案各有优劣：稀疏注意力“稀疏计算，稠密存储”，仍受制于显存；线性注意力计算效率高，但存在信息有损压缩导致的精度损失。

MiniCPM-SALA 的混合架构，通过集成 InfLLM-V2 的高保真局部建模与 Lightning Attention 的全局计算效率，旨在同时突破这两面墙。

主要贡献：

创新架构设计：提出 SALA 混合注意力，25% InfLLM-V2 + 75% Lightning Attention，平衡性能与效率。
高效训练范式：基于预训练权重的架构转换策略，总训练量仅为从头训练的 25%。
强大的综合性能：在保持优秀通用能力的同时，长上下文评估优势明显。
优越的推理效率：在 A6000D GPU 上 256K 长度推理速度达 Qwen3-8B 的 3.5 倍，并支持消费级 GPU 处理百万词元。

02 模型架构：如何实现混合？

MiniCPM-SALA详细架构示意图

总体架构设计：采用交替式混合，25%稀疏注意力层与75%线性注意力层异构堆叠。通过 HALO 算法将预训练的全注意力 Transformer 转换为混合架构，避免冷启动。
稀疏注意力模块：采用可切换的 InfLLM-V2，通过块选择机制让每个 Query 只处理关键 Key/Value。训练中可根据序列长度开关稀疏模式，并加入了输出门控机制以提升通用能力。
线性注意力模块：选用与全注意力计算范式更接近的 Lightning Attention，以保证与 HALO 转换的良好适配。采用了 QK 归一化、GQA 转 MHA 及输出门控等稳定训练、提升性能的设置。
混合位置编码：
- 线性层：保留 RoPE，以保持与转换前模型的一致性。
- 稀疏层：采用 NoPE，使历史 KV-Cache 不耦合位置信息，有效规避 RoPE 的长距离衰减问题，增强极远距离信息召回能力。

03 模型训练：分阶段高效演进

模型训练分为五个高效衔接的阶段，具体如下：

MiniCPM-SALA训练阶段划分表

架构转换：使用 HALO 方法将 Transformer 转换为混合架构，仅训练转换后的线性层，使用 1.3B 短序列词元高效完成。
持续 Stable 训练：序列长度 4K，训练 314.6B 词元，促进转换层与模型其他组件适配，此阶段关闭稀疏注意力。
Short-Decay 训练：主要训练阶段（1T词元），学习率衰减，序列长度 4K。增加高质量数据权重，引入 PDF 及合成数据，以强化通用与推理能力。
Long-Decay 训练：逐步将上下文窗口从 4K 扩展至 32K、160K、520K。启用稀疏注意力并进行全参数训练，让模型学习两种注意力的协同作用。
SFT：使用高质量的推理密集型及长上下文合成数据进行指令微调，依次在 64K 和 140K 长度下训练，全程启用稀疏注意力。

04 模型能力测试：长短兼备

短上下文能力测试：在知识、代码、数学等标准评测集上，9B 的 MiniCPM-SALA 与同规模主流全注意力模型表现相当。

标准能力评估详细结果表

长上下文能力测试：在 RULER、MRCR、NoLiMa 等长文本基准上，MiniCPM-SALA 均表现出明显优势。

长上下文评估详细结果表

超长序列能力测试：模型展现了优秀的长度外推能力，无需 YaRN 等技术即可有效处理至 2048K 长度，性能衰减平缓。

超长上下文评估详细结果表

05 计算效率测试：优势显著

测试对比了 MiniCPM-SALA 与 Qwen3-8B 在 A6000D 和 RTX 5090 上的 TTFT（首字延迟）和端到端延迟。

在 A6000D (96GB) 上：MiniCPM-SALA 在所有序列长度（64K-1024K）和量化状态下均延迟更低。尤其在 256K 长度，非量化 TTFT 从 Qwen3 的 180.8 秒降至 51.6 秒，加速约 3.5 倍。当 Qwen3 在 512K/1024K 遭遇 OOM 时，MiniCPM-SALA 仍可稳定推理。

A6000D推理延迟详细对比图

在 RTX 5090 (32GB) 上：显存优势更为突出。Qwen3-8B 在非量化 128K、量化 256K 时即触发 OOM，而 MiniCPM-SALA 可成功扩展至 1024K 词元，证明了其在消费级硬件上处理百万词元的可行性。

5090推理延迟详细对比图

结语

整体而言，SALA 通过融合稀疏与线性注意力，构建了一种面向长上下文高效建模的混合架构，在模型能力与处理效率间实现了出色平衡。它证明了从预训练 Transformer 出发进行架构转换是一条高效可行的技术路径。

随着对长上下文处理需求的爆发，稀疏-线性混合架构正成为最具实效的技术方向之一。面壁智能联合 SGLang、NVIDIA 发起的 “SOAR 2026 稀疏算子加速大奖赛”，也正是为了进一步挖掘该架构在底层硬件上的性能极限。

SOAR 2026稀疏算子加速大奖赛宣传图

对于开发者而言，这意味着我们拥有了一个在性能、效率与显存占用上更加均衡的工具。如果你对大语言模型的架构演进、高效推理实践感兴趣，不妨下载 MiniCPM-SALA 尝试，或关注相关开源社区的后续动态，共同探索长上下文应用的更多可能性。

上一篇：AI智能体记忆机制综述：构建长期交互与个性化服务的关键
下一篇：嵌入式开发实战：指针在寄存器操作与高效参数传递中的核心作用

Transformer, 注意力机制, 大语言模型, 开源社区, 性能优化