官方文档:https://api-docs.deepseek.com/news/news251201
论文:https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf
2025年12月1日,DeepSeek 正式发布了 DeepSeek-V3.2 和其增强版本 DeepSeek-V3.2-Speciale。目前,官方网页、应用程序及 API 均已更新为正式版。值得注意的是,Speciale 版本在复杂推理任务上表现出更强的能力,且可通过 API 调用,价格与标准 V3.2 版本保持一致。
在通用任务能力上,DeepSeek-V3.2 旨在对标 ChatGPT-5 和 Gemini Pro 3.0 等顶级闭源模型。下图(Figure 1)直观展示了 Speciale 版本在数学推理和智能体能力基准测试中的优异表现。

该版本引入了“Thinking”工具模式,支持模型在思考过程中同步调用外部工具。通过利用“难解答、易验证”的合成数据进行训练,其编程和工具调用能力得到了显著提升。从基准测试结果来看,其推理与智能体能力略高于 GPT-5,与 Gemini Pro 3.0 和 Claude Sonnet 接近,并在国内模型中全面领先。此外,V3.2 还支持类似 Claude Code 的代码生成模式,为国内开发者提供了新的选择。
1 技术突破
相较于前代,DeepSeek-V3.2 的技术突破主要体现在三个方面:解决了长上下文处理效率的瓶颈;通过强化学习缩小了开源模型与闭源模型在特定任务上的差距;以及提升了智能体调用工具解决复杂问题的实际能力。
1.1 DSA:动态稀疏注意力机制
DSA(Dynamic Sparse Attention)是本版本在核心架构上的主要升级。其设计初衷很明确:当模型处理长文本时,并非每个历史 token 都与当前生成内容高度相关,无需进行全量的注意力计算。DSA 机制包含两个核心组件:LightningIndexer(闪电索引器)和细粒度的 token 选择器。

LightningIndexer 负责快速扫描所有先前的 token,并为每个 token 计算一个“重要性分数”。它被设计得极其轻量高效(采用 FP8 低精度计算),就像一个高速过滤器,初步筛选出值得进一步关注的候选者。细粒度 token 选择器 则基于索引器给出的分数,仅选取排名最高的前 k 个 token(例如 top-32),后续完整的注意力计算仅在这部分选中的 token 上进行。
为了避免索引机制与主注意力机制相互干扰,DSA 的设计让两者在功能上解耦,并通过持续的预训练将索引器集成到模型中。这种设计的优势显而易见:它大幅提升了长文本的处理效率,同时并未明显牺牲模型效果;甚至由于过滤了大量无关信息的干扰,模型在某些任务上的表现可能反而更好。
从下图的推理成本对比可以看出,采用 DSA 后,无论是预填充阶段还是解码阶段,单位 token 的成本都得到了显著降低。

1.2 大规模可扩展的强化学习策略
模型的训练从一个预训练好的 DeepSeek-V3.2 基础检查点开始。除了常规的写作与问答任务,本次强化学习框架覆盖了六个专业领域:数学、编程、通用逻辑推理、通用智能任务、智能体编码以及智能搜索。所有这些领域都同时支持“思考”和“非思考”两种模式。
方法上,团队依然采用群体相对策略优化(GRPO)作为强化学习训练的核心算法。在 DeepSeek-V3.2-Exp 版本的训练中,团队创新地将推理能力、智能体能力以及对齐训练合并到了一个统一的强化学习阶段中。
尽管在核心算法上没有颠覆性的创新,但这项工作的重点在于证明:通过超大规模、高质量、多领域定向的 GRPO 后训练,可以全面且均衡地提升模型在各种核心任务上的最终性能。最终成果也印证了这一点:在普通对话中,其效果接近 ChatGPT-5;而在推理问题上,DeepSeek-V3.2-Speciale 实现了对 GPT-5 的超越,并与 Gemini-3.0-Pro 达到了相当的推理水平。
1.3 将深度推理无缝融入工具调用场景
此前 DeepSeek-R1 采用的策略——在用户发送第二轮消息时丢弃之前的推理痕迹——导致了显著的令牌效率低下。这种方法迫使模型在每次后续工具调用时,都不得不对整个问题进行冗余的重新推理。为了从根本上解决这一问题,团队开发了专为工具调用场景定制的上下文管理机制。该机制的核心原则是:仅在开启一个全新任务时移除之前的推理过程;而当推理痕迹被移除时,工具调用的历史记录及其结果依然会保留在上下文中,供后续步骤参考。

为了实现这一目标,团队针对不同类型的任务,设计了差异化的数据生成与优化方法。这些海量的合成数据驱动了后续的强化学习过程,显著提升了模型在复杂智能体环境中的泛化能力和指令遵循精度。
以通用智能体任务为例,为了在强化学习中扩展任务和环境,关键在于构建那些“解决路径多样(难以解决)但结果易于验证”的题目。整个数据生成过程形成了一个由 AI 自主驱动的“出题 - 解题 - 验证 - 提升难度 - 补充工具”的闭环迭代系统,目标是批量生产高质量、可自动化评估的复杂任务。
通过这一工作流程,团队获得了数千个 <环境, 工具, 任务, 验证器> 数据元组。随后,使用 DeepSeek-V3.2 在此数据集上进行强化学习,并筛选出 pass@100 > 0 的实例(即模型尝试解决100次,至少成功一次的任务),最终得到了1,827个高质量的环境及其对应任务。这种基于HuggingFace等开源理念构建的高质量数据集,是推动模型能力边界的关键。
通过对DSA稀疏注意力架构、可扩展强化学习以及推理与工具集成这三大核心技术的深度剖析,我们得以一窥DeepSeek-V3.2强大的技术底蕴。对于希望深入理解现代大模型架构演进的开发者而言,这类技术文档和源码解析具有极高的参考价值。如果你对Transformer架构的创新、强化学习的应用或智能体开发有进一步兴趣,欢迎在云栈社区与更多技术同仁交流探讨。