青柑

5561 积分	1 好友	757 主题

发消息

DeepSeek-V4 算力短板催生超节点技术：国产厂商 2026 能否实现万卡互联突围

发表于 3 天前 | 查看: 3| 回复: 0

DeepSeek全新系列模型DeepSeek-V4的预览版本正式上线并同步开源，消息一出便在业界激起千层浪。国内AI芯片厂商迅速跟进，华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份等纷纷宣布旗下产品已完成适配。

但算力仍是DeepSeek-V4的明显短板。官方API页面不得不承认，受限于高端算力，目前V4-Pro模型的服务吞吐量有限，预计下半年国产大厂950超节点批量上市后，Pro价格才会大幅下调。那么，超节点到底是什么？国产超节点的发展与落地又走到了哪一步？

超节点的技术与优势

超节点（SuperPod）是一种面向大规模AI计算的系统级算力架构创新，概念最初由英伟达提出。其核心定义是通过高速互连技术，将数十到数百颗（甚至数千颗）AI芯片（GPU/NPU）紧密耦合为一个统一的高速计算域，逻辑上等效为一台超级计算设备，以此打破传统分布式集群的通信瓶颈。

核心技术可概括为四点：

架构设计：采用Scale Up（纵向扩展）为主、Scale Up与Scale Out（横向扩展）融合的架构，先将大量芯片集中在单一机架/超节点内部完成高带宽互连，再通过外部网络扩展多超节点集群。
互连能力：借助超带宽域（HBD）技术，实现芯片间百纳秒级低时延、百GB/s级高带宽互联，支撑张量并行（TP）、专家并行（EP）等高通信量的并行计算任务。
形态创新：突破单服务器物理限制，可将数十到数百颗AI芯片集成在一个液冷机柜内，支持“乐高式”灵活搭建，部分方案甚至能实现跨机柜万卡级扩展。
系统价值：并非简单的硬件堆叠，而是通过高速互连、统一编址、协同调度，将理论算力转化为实际可交付的有效算力（Goodput），专门解决大模型训练中的“通信墙”“内存墙”问题。

特别值得关注的是，由于芯片工艺与设计的差距，国产单芯片AI性能短期内仍难追上国际顶尖产品，但超节点技术把竞争焦点从“单芯片性能”转向了“系统级效能”。例如，华为基于昇腾950构建的Atlas 950 SuperPoD超节点，可支持8192张昇腾卡互联，总算力规模和互联指标全面领先英伟达NVL72系统，甚至有国外投行评价其“领先于英伟达和AMD目前市场上的产品一代”。

国产超节点元年

2025年行业仍以昇腾910C+CloudMatrix 384为主，仅支持FP16，无法适配主流的FP8大模型。到了2026年，随着华为Atlas 950万卡级超节点量产、运营商与互联网巨头批量采购、DeepSeek等头部模型的全面适配，这一年被广泛视为“国产超节点元年”。国产超节点由此完成了从技术验证→小规模试点→大规模量产与商用集采的跨越。

国家级算力平台落地：国家超算互联网郑州节点采用曙光scaleX万卡超集群，接入超3万卡国产AI算力，成为国内最大运营中的纯国产AI算力池。
头部厂商万卡级集群投产：百度智能云基于昆仑芯的三万卡集群已点亮，可同时支撑多个千亿参数大模型训练，未来规划扩展至百万卡级别；华为昇腾384超节点已在互联网、金融、运营商、电力等多个行业大规模落地，商汤SenseCore也已完成全栈适配，支撑多个行业大模型训练。
行业场景深度渗透：天数智芯基于超节点架构的千卡集群已稳定运行超1000天，在金融领域使研报生成效率提升70%，医疗领域将结构化病历生成压缩至30秒/份，还落地了瑞幸全国数千家门店的AI应用；曦望推出面向大模型推理的超节点方案，以“百万Token一分钱”为目标，已在多个互联网推理场景实现降本。

推理应用场景

随着大模型产业落地加速，推理算力需求已超过训练。超节点技术正主要针对推理场景的低时延、高吞吐、大上下文、低成本需求，在以下关键环节大显身手。

1. 大规模MoE大模型分布式推理

MoE大模型参数规模庞大但激活参数量小，传统的“一卡多专家”推理模式存在严重的资源浪费。而超节点的MoE亲和架构实现了“一卡一专家”分布式推理——借助超节点内部高速互联支撑专家路由的低时延通信，相比传统架构，单卡MoE计算和通信效率均大幅提升。这一方案已在政务、零售、金融等行业的DeepSeek等MoE模型部署中落地，支撑智能客服、搜索、内容创作等场景。

2. 大上下文/长序列场景推理

长上下文窗口（128K Token以上）是当前大模型应用的主流需求，但传统单卡显存瓶颈导致首Token时延极高。超节点用“以存强算”的架构创新解决了这一问题。例如，华为云超节点首创EMS弹性内存存储技术，打破显存与算力的绑定，通过内存池化实现显存弹性扩容，首Token时延最高降低80%；同时支持千亿参数大模型在超节点内统一调度，让长文档理解、长视频分析等场景获得低时延响应。

3. 智能体与高并发Token推理

智能体应用需要多轮交互和工具调用，Token消耗呈指数级增长，对推理吞吐量和成本控制要求极高。国产超节点为此形成了专门优化，如PD分离架构推理、光互连超节点极致性价比、训推共池资源复用等，专攻大推理场景下的效率与成本痛点。

4. 百模千态大模型部署托管

当前行业大模型呈现出“百模千态”的趋势，需要同时承载数百个不同尺寸大模型的在线服务。超节点通过资源池化实现高效部署：华为云超节点构建算力、内存与显存统一资源池，推理性能较传统方案平均提升3-4倍；百度天池256超节点支持主流大模型推理任务，单卡tokens吞吐提升超过50%，已成为国内大模型托管服务的主流算力底座。

上一篇：ACL 2026 | XBridge外挂式多语言扩展：不训练LLM也能驾驭低资源语言
下一篇：阶跃星辰推StepAudio 2.5语音识别模型：支持Multi-Token Prediction，推理速度提升400%

DeepSeek-V4, 超节点, 昇腾, 推理, AI芯片