打开 OpenRouter 最新的模型月榜,V4 上线一个月,DeepSeek 的存在感极强。
V4 Flash 月调用 9.13T tokens,稳坐第 1。V4 Pro 也冲到了 3.89T 排第 9。再加上 V3.2 的 4.07T 排第 8,DeepSeek 三个模型同时挤进前十,月调用合计超过 17 万亿 tokens。

应用方面,排名前两位的 Hermes Agent 和 OpenClaw,月调用量分别达到了 10.8T 和 6.25T tokens。
换句话说,如今 Token 消耗的绝对主力,已经从传统的聊天机器人,彻底让位给了会规划、检索、调用工具并反复验证的 Agent 系统。
它就像一个小型工作流,单次任务动辄触发上百轮 LLM 调用,并伴随数十次工具执行,再加上长记忆和自演进产生的数据,负载常常飙升至数百 GB 甚至 TB 级。

这种以「万亿」为单位的高强度并发,正在将底层基础设施的每一个短板都无限放大。
同一套能力,接住了不同的头部模型
而这,也呼应了几个月前行业里流传的一个似是而非的传闻。
当时 DeepSeek V4 的发布有所推迟,坊间便出现一种猜测:是不是因为 V4 在跟昇腾做底层的深度适配,拖慢了节奏?
这甚至引发了一种错觉,让人以为昇腾正在成为某一家大模型厂商的「专有硬件」,不得不把大量精力耗费在特定模型的查漏补缺上。
这恰恰是对算力底座和模型演进关系最大的一个误解。
DeepSeek V4 之所以能在开源首日做到「开箱即优」,并不是因为昇腾为了某款模型削足适履,而是因为 LLM 演进到今天,必然会撞上这几堵墙。
而昇腾,只是恰好提前在那里等它。
放眼中国大模型的第一梯队,就会发现一个事实:不管是智谱、MiniMax,还是这次引爆全网的 DeepSeek,尽管各自的微观算法、应用场景千差万别,但在迈向「低精度量化、长上下文、万亿 MoE」这几个方向时,步调是一致的。
面对整条赛道的共性需求,昇腾交出的是一套通用的答卷。
就拿刚刚过去的 4 月来说,智谱 GLM-5.1、MiniMax M2.7、DeepSeek V4 三个头部模型密集开源,昇腾全部做到了发布即支持。
能做到这种覆盖速度,唯一的解释是,其底层的能力是高度通用的。
头部模型撞上「同一堵墙」
昇腾的能力之所以能实现通用,是因为头部模型走到了同一个路口。
首先是 MoE 架构,它的好处是每次只激活一小部分专家来干活,计算效率高。但代价很明显,专家分散在不同的卡上,每次推理都要大量卡间通信。
上下文方面,V4 两个版本都标配百万 token。模型侧已经在用混合稀疏注意力(CSA/HCA)拼命压成本,但百万级 KVCache 对基础设施的内存压力仍然是实打实的。
精度方面,V4-Pro 在 HuggingFace 上标注 FP4+FP8 混合精度,MoE 专家参数用 FP4,其他用 FP8。低精度推理已经从「能不能压缩」进入了「压缩后是否可靠」的阶段。
通信、内存、精度,是各大头部模型在部署时都会面临的难题。
而能够系统性地解决这三件事的 AI 软硬件平台,将率先抢占下一代 AI 基础设施的关键入口。
万亿 MoE 的通信瓶颈:一个算子打通
MoE 的关键在于,计算被稀疏化以后,通信变成了第一瓶颈。
昇腾之前已经有 MC2 通算融合算子,在不同的并行方式下把矩阵计算和集合通信做了融合。
然而,在 EP 并行模式下,现有算子仍无法实现通信与 Grouped Matmul 计算的完全并行,因此并未达到真正的通算融合。
MegaMoE 补上的,正是这个缺口。
它把 MoE 推理中原本分开执行的五个步骤——Alltoall Dispatch、GMM1、Swiglu、GMM2、Alltoall Combine——融成一个大算子,让通信和计算尽可能同时进行。同时支持 Prefill 和 Decode 场景。
昇腾 Atlas 800 A3 上的实测数据显示,DeepSeek V3.1 和 Qwen3-235B 两个模型接入 MegaMoE 融合算子后,Prefill 场景可获得 20% 到 30% 的性能提升,Decode 场景也有 10% 以上的收益。
百万上下文:先过内存这一关
百万 token 上下文要真正跑好,有一个绕不过去的问题。
Prefix Cache(前缀缓存)是当前大模型推理服务中广泛使用的优化技术。
它通过缓存多轮对话或长文档中重复出现的前缀部分的 KVCache,让新请求可以跳过这部分的重复计算,从而降低首 token 时延、提升整体吞吐。多轮对话、RAG、Agent 场景都离不开它。
但单机的 Prefix Cache 有一个根本局限:缓存只存在本机本地内存里,容量有限,容易被淘汰。更关键的是,跨机器的实例之间完全不共享,集群越大,缓存利用率反而越低。
而多机部署、PD 分离、大规模专家并行,恰恰是所有万亿级 MoE 模型的标准部署方式,并且都对多机间的内存共享和数据调度提出了更高要求。
为此,昇腾提出了全新的 KVCache 池化方案,框架层通过 KV Connector 对接池化后端,去除冗余的三方转发层。
- 通信层引入 HIXL 实现零拷贝传输,数据搬运下沉至设备侧高带宽链路,NPU 间点对点直连免除 CPU 中转。
- 借助 MemFabric 实现跨节点内存统一编址,将不同机器的物理内存融合成全局大池。
同时,长序列还有一个更底层的压力。
在业界的普遍认知中,Prefill 阶段的计算量随序列长度呈平方级增长,Decode 阶段的 KVCache 内存占用则随序列长度线性增长,长序列同时带来计算和内存的双重瓶颈。
对此,昇腾采用了 PCP 做 Prefill 阶段的算力切分,DCP 做 Decode 阶段的 KVCache 内存切分,两者配合把双重压力同时分摊开。
这套方案让 Agentic 场景下的 Prefill 性能提升 4 倍以上,并且不限于某一个模型,任何需要百万级上下文的场景都能受益。
当超长上下文逐渐变成「基本需求」,长序列的基础设施能力,已经是开发者选择平台时绕不开的一道题了。
低精量化:难的不是压缩是可靠
通信和内存之外,精度是第三个绕不过去的难题。
传统量化方式(INT4/INT8/FP8)用全局统一缩放因子,相当于一把尺子量所有参数,碰到异常值整个缩放范围就被拽偏了。
在参数分布差异极大的 MoE 模型中,这一问题尤为致命。
为了解决这个矛盾,行业正在向 Microscaling 格式(MXFP4/MXFP8)收敛。它的原理是把参数分成小组,每组用独立缩放因子,异常值只影响本组,不拖累全局。
但光有格式标准还不够,关键是硬件和工具链能不能跟上。
昇腾 950 系列创新性地在架构层面提供了专用的块缩放因子计算单元和 MXFP 矩阵乘法加速器,从硬件层原生支撑 MX 格式。
再往上,MindStudio 工具支持一键生成 MXFP4/MXFP8 模型权重,开发者不需要手动处理量化细节。
从硬件到工具链全部打通之后,任何想走 MXFP 路线的模型,在昇腾上都能快速适配。
接得住巨浪,就能接得住江海
从低精量化到长序列池化再到 MoE 通算融合,这三个方向看似各自独立,但背后对应的是同一个命题:Agent 时代的推理基础设施该怎么建。
而在这个命题上,昇腾全系列产品不仅已经实现了对 DeepSeek 的全面支持,更让人看到了 V4 背后的一条完整链路——从底层芯片、底层编程语言到核心算子,关键环节都有中国自己的方案。
可以说,DeepSeek V4 的出现,印证了中国已经可以依靠一整套自主创新的生态体系来打造顶尖大模型。
而昇腾,正是这条生态链路上的算力底座,一个面向全行业的通用 AI 软硬件平台。
Agent 时代的推理负载还在膨胀,下一个万亿级模型随时会来。这个平台能接得住的,远不止 DeepSeek。关于 AI 算力与推理优化的前沿讨论,欢迎访问 云栈社区 与更多开发者深入交流。