云栈社区»论坛 › 技术文档「 Note & Doc 」 › DeepSeek-V3.2：采用稀疏注意力架构DSA的高性能开源大模型 ...

发回帖发新帖

1103 积分	0 好友	145 主题

发消息

DeepSeek-V3.2：采用稀疏注意力架构DSA的高性能开源大模型

发表于 2025-12-17 23:09:35 | 查看: 68| 回复: 0

引言

背景

尽管开源社区持续取得进展，但闭源商业模型的性能提升轨迹呈现出更陡峭的增长趋势，导致二者在复杂任务上的性能差距不断拉大。
本文识别出限制开源模型处理复杂任务的三大关键缺陷：

架构效率低下：对传统注意力机制的高度依赖严重制约了长序列场景下的计算效率。
训练算力不足：开源模型在后训练阶段投入的算力普遍不足，限制了其高难度任务性能。
智能体能力落后：在AI智能体场景中，开源模型在泛化能力和指令遵循方面显著落后于闭源模型。

本文方案

我们提出了DeepSeek-V3.2，这是一款兼具高计算效率与卓越推理与智能体能力的模型。其核心技术突破包括：

DeepSeek稀疏注意力机制（DSA）：一种高效的注意力机制，能够在显著降低计算复杂度的同时，保持模型在超长上下文场景下的性能。
可扩展的强化学习框架：通过构建稳健的强化学习协议并扩大后训练计算规模，使模型表现达到前沿水平。
大规模智能体任务合成流水线：开发了一套全新的数据合成流水线，可系统性、规模化地产生训练数据，显著提升模型的泛化能力与指令遵循的稳健性。

DeepSeek-V3.2在多项推理基准上与Kimi-k2-thinking和GPT-5达到相近性能。其高算力版本 DeepSeek-V3.2-Speciale 的性能超越GPT-5，并展现出与 Gemini-3.0-Pro 相当的推理能力。

方法

2. DeepSeek-V3.2架构

2.1 DeepSeek稀疏注意力

DeepSeek-V3.2在架构上的唯一改动，就是在持续训练过程中引入了 DeepSeek稀疏注意力（DSA）。

DSA原型
DSA的原型主要由两个组件构成：

闪电索引器（lightning indexer）
细粒度token选择机制（fine-grained token selection mechanism）

闪电索引器计算查询token $h_t$ 与其之前某个token $h_s$ 之间的索引分数 $I_{t,s}$，用于决定该查询token要选择哪些历史token：

$$ I_{t,s} = \sum_{j=1}^{H_I} w^I_{t,j} \cdot \text{ReLU}\big(q^I_{t,j} \cdot k^I_s\big), \tag{1} $$

在为每个查询token $h_t$ 得到索引分数集合 ${I_{t,s}}$ 之后，细粒度token选择机制会仅检索对应于 Top-k索引分数 的那些key-value条目 ${c_s}$。随后，通过应用注意力机制得到输出 $u_t$：

$$ u_t = \text{Attn}\Big(h_t, \{c_s \mid I_{t,s} \in \text{Top-k}(I_{t,:})\}\Big). \tag{2} $$

在MLA框架下实例化DSA
我们在DeepSeek-V3.2中基于MLA（Multi-Head Latent Attention）来实例化DSA。在kernel实现层面，我们在MLA的 MQA模式（Multi-Query Attention）下实现DSA，使得每个latent向量会在同一个查询token的所有query heads之间共享。

基于MLA的DSA架构如图2所示。

基于MLA的DSA架构图
图2：基于MLA的DeepSeek稀疏注意力（DSA）架构示意图。

2.1.1 持续预训练

基于已扩展到128K上下文长度的DeepSeek-V3.1-Terminus基础检查点，我们进行持续预训练，随后开展后训练，从而构建DeepSeek-V3.2。持续预训练由两个阶段组成。

Dense Warm-up阶段
我们首先进行一个短暂的warm-up阶段，用于初始化lightning indexer。在该阶段中，注意力仍保持稠密，且除indexer外的所有模型参数全部冻结。

为了使indexer的输出与主注意力分布对齐，我们设定indexer的训练目标为KL散度损失：

$$ L_I = \sum_t \text{DKL}\left(p_{t,:} || \text{Softmax}(I_{t,:})\right). \tag{3} $$

Warm-up配置如下：

学习率：$10^{-3}$
训练步数：1000
总token数：2.1B

Sparse Training阶段
在indexer warm-up之后，我们引入细粒度token选择机制，并优化所有模型参数，使模型适应DSA的稀疏模式。

在此阶段，损失函数为：

$$ L_I = \sum_t \text{DKL}!\left(p_{t,S_t} ; |; \text{Softmax}(I_{t,S_t})\right). \tag{4} $$

其中 $S_t$ 为被选择的token集合。indexer仅通过 $L_I$ 获得训练信号，主模型则根据语言建模损失进行优化。

Sparse阶段配置如下：

学习率：$7.3\times 10^{-6}$
每个query token选择2048个key-value tokens
总token数：943.7B

2.2 性能一致性评估

标准基准测试
在覆盖多种能力的基准上评估DeepSeek-V3.2-Exp，并与DeepSeek-V3.1-Terminus对比，结果显示其性能相近。尽管在长序列场景显著提升了计算效率，但其在短上下文与长上下文任务中的性能相较上一代未出现明显下降。

长上下文评估
DeepSeek-V3.2-Exp发布后，多组独立团队使用未公开的新测试集进行了评估。在典型基准AA-LCR中，DeepSeek-V3.2-Exp在reasoning模式下比V3.1-Terminus高4分。这些证据表明，V3.2-Exp的基础模型在长上下文任务上没有退化。

2.3 推理成本

DSA将主模型注意力的核心复杂度从 $O(L^2)$ 降低为 $O(Lk)$，其中 $k \ll L$ 为选取的token数量。尽管lightning indexer本身仍然是 $O(L^2)$，但其计算需求显著更低。结合优化实现，DSA在长上下文场景中带来了显著的端到端加速。

图3展示了DeepSeek-V3.1-Terminus与DeepSeek-V3.2在序列不同位置的token成本差异。

推理成本对比图
图3：DeepSeek-V3.1-Terminus与DeepSeek-V3.2在不同序列位置的推理成本对比。

3. 后训练

在持续预训练结束后，我们进一步执行后训练，以得到最终的DeepSeek-V3.2。后训练仍采用相同的稀疏注意力方式，流程包括专家蒸馏与混合强化学习训练。

专家蒸馏

针对每项任务，我们首先开发专注于特定领域的专家模型，所有专家模型均基于相同的DeepSeek-V3.2预训练基座进行微调。框架涵盖六个专业领域：

数学
编程
通用逻辑推理
通用智能体任务
智能体代码生成
智能体搜索

在专家模型训练完成后，我们利用它们生成领域特定的数据用于最终检查点。实验表明，在蒸馏数据上训练的模型，其性能仅略低于专家模型本身。

混合RL训练

对于DeepSeek-V3.2，我们采用Group Relative Policy Optimization（GRPO）作为强化学习训练算法。我们将推理、智能体训练、人类对齐三者合并到同一个RL阶段中，有效平衡不同领域的性能，并避免多阶段训练中常见的灾难性遗忘问题。

DeepSeek-V3.2与DeepSeek-V3.2-Speciale

DeepSeek-V3.2整合来自专家模型蒸馏的数据，通过数千步持续RL训练，得到最终检查点。

为了探索延长链式思维能力的上限，我们开发了实验性变体 DeepSeek-V3.2-Speciale：

仅使用推理数据进行训练
RL训练中降低长度惩罚
融入DeepSeekMath-V2的数据集与奖励方法
专门增强数学证明能力

3.1 GRPO的扩展训练

我们回顾并优化了GRPO算法，主要改进包括：

无偏KL估计：对K3估计器进行修正，使其通过重要性采样比率得到无偏估计，有助于稳定收敛。
离策略序列掩码：对产生显著策略偏移的样本进行掩码，仅掩码负优势样本，显著提升了不稳定训练场景的稳定性。
保持路由：记录推理时的MoE专家路由，并在训练时强制使用相同路由，这是稳定MoE模型RL训练的关键。
保持采样掩码：将旧策略采样时的截断掩码（top-p/top-k）同步应用于新策略，能有效保持RL训练的语言一致性。

3.2 工具使用中的思维能力

3.2.1 思维上下文管理
我们开发了一种专门用于工具调用的上下文管理策略，如图4所示：

只有当新的用户消息出现时，历史推理内容才会被丢弃。 若追加的仅是工具相关消息，推理内容会在整个交互过程中被保留。
当推理轨迹被清除时，工具调用的历史记录及其结果仍然保留在上下文中。

思维上下文管理策略图
图4：工具使用场景中的思维上下文管理策略示意图。

3.2.2 冷启动
我们通过精心设计的prompt，将已有的推理数据与非推理智能体数据整合，使模型能够通过prompting自然地将工具执行整合进推理过程。这种方式使模型能偶尔生成符合预期的轨迹，成为后续RL阶段训练的基础。

3.2.3 大规模智能体任务
多样化的RL任务对于增强模型稳健性至关重要。我们使用的智能体任务如表1所述。

智能体任务表
表1：用于强化学习训练的大规模智能体任务列表。

搜索智能体
我们基于DeepSeek-V3.2构建多智能体管线，生成多样且高质量的训练数据。流程包括问题构造、回答生成与多轮验证，生成的数据跨越多个语言、领域与难度。

代码智能体
我们从GitHub挖掘了数百万issue–PR配对构建大规模可执行环境，并利用DeepSeek-V3.2驱动的自动环境搭建智能体完成环境构建，最终构建了数万个可重复环境，覆盖Python、Java、JavaScript等多种编程语言。

通用智能体
为扩大RL中的环境与任务规模，我们使用自动环境生成智能体构建了 1,827个任务环境。任务生成流程使最终得到成千上万个 <环境，工具，任务，验证器> 元组。

文中附带一个行程规划任务示例如下：

任务：规划一次从北京到巴黎的旅行，要求总预算不超过5000美元，旅行时长7天，并参观至少3个著名景点。
工具：包括航班查询、酒店预订、景点信息检索等。
验证：验证函数检查行程是否满足所有约束条件。

4. 实验

4.1 主要结果

我们在涵盖推理、代码、数学、智能体等多个领域的广泛基准上对模型进行评估。评估时，对于工具使用基准，我们以标准函数调用格式进行评估，模型设置为thinking mode。

与竞品模型的对比表现

DeepSeek-V3.2的推理能力接近GPT-5-high，但略弱于Gemini-3.0-Pro。
与K2-Thinking相比，DeepSeek-V3.2在输出token明显更少的情况下取得了可比性能。

性能提升主要来自加大RL训练计算预算以及RL训练时间的显著延长。我们观察到，随着RL预算进一步增加，模型推理表现持续提升。

代码智能体任务表现
DeepSeek-V3.2在SWE-bench Verified与Terminal Bench 2.0上明显优于所有开源LLM。

Terminal Bench 2.0：在Claude Code框架下得分为46.4。
SWE-bench Verified：得分介于72–74之间，表现稳定。

工具使用基准表现
DeepSeek-V3.2已大幅缩小开源模型与闭源模型的差距。在τ²-bench基准上，模型作为用户智能体取得了优秀成绩。在MCP系列基准上，尽管存在生成过长轨迹的问题，但DeepSeek-V3.2仍显著优于所有现存开源模型，并能将推理策略泛化至域外智能体任务。

4.2 DeepSeek-V3.2-Speciale的结果

DeepSeek-V3.2-Speciale通过使用更多的推理tokens获得了更优的性能，在多个基准上超越了当前最先进的Gemini-3.0-Pro。该通用模型在未经过专项训练的情况下，就在2025年国际信息学奥林匹克竞赛（IOI）和ICPC世界总决赛中达到了金牌水平。通过结合特定方法，该模型在2025年国际数学奥林匹克（IMO）和中国数学奥林匹克（CMO）中也达到了金牌线。

然而，其token效率仍显著低于Gemini-3.0-Pro。为了优化性能与成本之间的权衡，我们在官方版本DeepSeek-V3.2的训练过程中施加了更严格的token约束。

4.3 合成智能体任务

我们通过消融实验研究合成智能体任务的作用。评估表明，合成数据中包含的智能体任务对DeepSeek-V3.2-Exp和前沿闭源模型而言都具有相当挑战性。

如图5所示，大规模的合成数据RL在多个智能体基准上相较SFT检查点带来了显著提升。相比之下，将RL限制在代码与搜索场景中并不能改善这些基准上的表现，进一步凸显了合成数据的潜力。

合成数据RL消融实验结果图
图5：在不同训练数据设置下的模型性能对比。

4.4 搜索智能体的上下文管理

我们提出了一种上下文管理方法，当token使用量超过上下文窗口长度的80%时，通过策略在测试阶段扩展token预算。策略包括：

Summary：对溢出的轨迹进行总结，然后重新启动。
Discard-75%：丢弃轨迹中最早的75%工具调用历史。
Discard-all：丢弃所有先前的工具调用历史，重置上下文。

我们在BrowseComp基准上评估了这些策略。

BrowseComp准确率对比图
图6：在BrowseComp基准上使用不同上下文管理策略的准确率对比。

如图6所示，上下文管理通过允许模型扩展测试时计算量而带来显著性能提升。例如，Discard-all策略在效率与可扩展性上表现良好，取得了优秀的得分。测试时计算可以通过串行方式或并行方式进行扩展，两者都能有效提升模型的任务求解能力。

结论

通过引入DSA，在不牺牲长上下文性能的前提下解决了关键的计算复杂度问题。
凭借增加的计算预算，DeepSeek-V3.2在推理基准上实现了与GPT-5相当的表现。
大规模智能体任务合成流水线的整合显著提升了工具使用能力。
与Gemini-3.0-Pro这种前沿闭源模型相比，DeepSeek-V3.2仍存在一定局限性，主要体现在训练FLOPs不足导致的知识广度差距以及需要更长生成轨迹的token效率挑战上。这为未来大语言模型与云原生优化方向的结合提供了明确的研究路径。

上一篇：Kafka高吞吐量奥秘：详解顺序写磁盘机制与性能优化
下一篇：Elasticsearch索引管理实战指南：从设计到运维应对数据量暴涨

DeepSeek-V3．2, 大语言模型, 稀疏注意力, AI智能体, 强化学习