DeepSeek全新系列模型DeepSeek-V4的预览版本正式上线并同步开源,消息一出便在业界激起千层浪。国内AI芯片厂商迅速跟进,华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份等纷纷宣布旗下产品已完成适配。
但算力仍是DeepSeek-V4的明显短板。官方API页面不得不承认,受限于高端算力,目前V4-Pro模型的服务吞吐量有限,预计下半年国产大厂950超节点批量上市后,Pro价格才会大幅下调。那么,超节点到底是什么?国产超节点的发展与落地又走到了哪一步?
超节点的技术与优势
超节点(SuperPod)是一种面向大规模AI计算的系统级算力架构创新,概念最初由英伟达提出。其核心定义是通过高速互连技术,将数十到数百颗(甚至数千颗)AI芯片(GPU/NPU)紧密耦合为一个统一的高速计算域,逻辑上等效为一台超级计算设备,以此打破传统分布式集群的通信瓶颈。
核心技术可概括为四点:
- 架构设计:采用Scale Up(纵向扩展)为主、Scale Up与Scale Out(横向扩展)融合的架构,先将大量芯片集中在单一机架/超节点内部完成高带宽互连,再通过外部网络扩展多超节点集群。
- 互连能力:借助超带宽域(HBD)技术,实现芯片间百纳秒级低时延、百GB/s级高带宽互联,支撑张量并行(TP)、专家并行(EP)等高通信量的并行计算任务。
- 形态创新:突破单服务器物理限制,可将数十到数百颗AI芯片集成在一个液冷机柜内,支持“乐高式”灵活搭建,部分方案甚至能实现跨机柜万卡级扩展。
- 系统价值:并非简单的硬件堆叠,而是通过高速互连、统一编址、协同调度,将理论算力转化为实际可交付的有效算力(Goodput),专门解决大模型训练中的“通信墙”“内存墙”问题。
特别值得关注的是,由于芯片工艺与设计的差距,国产单芯片AI性能短期内仍难追上国际顶尖产品,但超节点技术把竞争焦点从“单芯片性能”转向了“系统级效能”。例如,华为基于昇腾950构建的Atlas 950 SuperPoD超节点,可支持8192张昇腾卡互联,总算力规模和互联指标全面领先英伟达NVL72系统,甚至有国外投行评价其“领先于英伟达和AMD目前市场上的产品一代”。
国产超节点元年
2025年行业仍以昇腾910C+CloudMatrix 384为主,仅支持FP16,无法适配主流的FP8大模型。到了2026年,随着华为Atlas 950万卡级超节点量产、运营商与互联网巨头批量采购、DeepSeek等头部模型的全面适配,这一年被广泛视为“国产超节点元年”。国产超节点由此完成了从技术验证→小规模试点→大规模量产与商用集采的跨越。
- 国家级算力平台落地:国家超算互联网郑州节点采用曙光scaleX万卡超集群,接入超3万卡国产AI算力,成为国内最大运营中的纯国产AI算力池。
- 头部厂商万卡级集群投产:百度智能云基于昆仑芯的三万卡集群已点亮,可同时支撑多个千亿参数大模型训练,未来规划扩展至百万卡级别;华为昇腾384超节点已在互联网、金融、运营商、电力等多个行业大规模落地,商汤SenseCore也已完成全栈适配,支撑多个行业大模型训练。
- 行业场景深度渗透:天数智芯基于超节点架构的千卡集群已稳定运行超1000天,在金融领域使研报生成效率提升70%,医疗领域将结构化病历生成压缩至30秒/份,还落地了瑞幸全国数千家门店的AI应用;曦望推出面向大模型推理的超节点方案,以“百万Token一分钱”为目标,已在多个互联网推理场景实现降本。
推理应用场景
随着大模型产业落地加速,推理算力需求已超过训练。超节点技术正主要针对推理场景的低时延、高吞吐、大上下文、低成本需求,在以下关键环节大显身手。
1. 大规模MoE大模型分布式推理
MoE大模型参数规模庞大但激活参数量小,传统的“一卡多专家”推理模式存在严重的资源浪费。而超节点的MoE亲和架构实现了“一卡一专家”分布式推理——借助超节点内部高速互联支撑专家路由的低时延通信,相比传统架构,单卡MoE计算和通信效率均大幅提升。这一方案已在政务、零售、金融等行业的DeepSeek等MoE模型部署中落地,支撑智能客服、搜索、内容创作等场景。
2. 大上下文/长序列场景推理
长上下文窗口(128K Token以上)是当前大模型应用的主流需求,但传统单卡显存瓶颈导致首Token时延极高。超节点用“以存强算”的架构创新解决了这一问题。例如,华为云超节点首创EMS弹性内存存储技术,打破显存与算力的绑定,通过内存池化实现显存弹性扩容,首Token时延最高降低80%;同时支持千亿参数大模型在超节点内统一调度,让长文档理解、长视频分析等场景获得低时延响应。
3. 智能体与高并发Token推理
智能体应用需要多轮交互和工具调用,Token消耗呈指数级增长,对推理吞吐量和成本控制要求极高。国产超节点为此形成了专门优化,如PD分离架构推理、光互连超节点极致性价比、训推共池资源复用等,专攻大推理场景下的效率与成本痛点。
4. 百模千态大模型部署托管
当前行业大模型呈现出“百模千态”的趋势,需要同时承载数百个不同尺寸大模型的在线服务。超节点通过资源池化实现高效部署:华为云超节点构建算力、内存与显存统一资源池,推理性能较传统方案平均提升3-4倍;百度天池256超节点支持主流大模型推理任务,单卡tokens吞吐提升超过50%,已成为国内大模型托管服务的主流算力底座。
|