随着大模型参数规模持续扩张,从千卡迈向万卡乃至十万卡级别,GPU在其中扮演着关键算力硬件的角色,为AIGC大模型的训练与推理提供了核心支撑。这一趋势也催生了超节点(SuperPod) 这一集成化算力解决方案,其概念最初由英伟达提出。
国内外主流AI超节点厂商及产品
国内厂商
- 华为:发布了CloudMatrix 384超节点(昇腾384超节点),并规划了Atlas 950/960 SuperPoD超节点。
- 中科曙光:发布了scaleX640超节点,可通过互连组成scaleX万卡超集群。
- 浪潮信息:发布了面向万亿参数大模型的元脑SD200超节点。
- 阿里云:发布了适配云端部署并支持多品牌芯片的磐久128超节点。
- 百度智能云:随百舸AI计算平台5.0启用了基于昆仑芯的天池256/512超节点。
- 沐曦:推出了包括光互连超节点、耀龙3D Mesh超节点在内的多形态产品。

国外厂商
- 英伟达:发布了GB200 NVL72超节点,并规划了Vera Rubin NVL144、Rubin Ultra NVL576等后续产品。
- GigaIO:基于FabreX PCIe内存架构,发布了SuperNODE超节点。
- 戴尔:推出了采用AMD Instinct加速器的XE9785/XE9785L超节点。
- 甲骨文:推出了以超节点集群形态存在的OCI Zettascale10超级计算机,基于英伟达GPU与超低延迟网络构建。


深度剖析:百度“天池超节点”
近期,百度发布了“天池256”超节点(256卡)和“天池512”超节点(512卡),预计分别于2026年上半年及下半年推出。同时,其自研芯片路线图也一同公布:面向推理的昆仑芯M100预计2026年初上市,训练与推理兼顾的M300预计2027年初上市。
1. 关键参数与方案亮点
“天池”超节点的发布标志着百度在自研AI算力系统集成上取得重要进展,旨在为中国万亿参数大模型训练提供高效、稳定的国产化基础设施。

天池超节点的核心亮点在于 “训练—推理一体化” 与 “极致算力密度” 设计。在国产化层面,它是国内最早实现GPU与NPU协同的大规模商用超节点之一,全面适配百度的飞桨(PaddlePaddle)深度学习框架,实现了从硬件到软件的全链条自主可控。
此外,系统设计强调 “推理优先” 理念,结合百度自研推理引擎、模型压缩工具及昆仑芯异构协同技术,使其在大模型部署与在线服务场景中,能在同等规模集群下实现更优的吞吐量与能效比。
2. 核心竞争优势分析
当前,AI超节点的竞争焦点已从单卡性能转向多卡规模、互连能力、成本优化及全栈体系化能力。在供应链安全备受关注的背景下,构建“国产芯片+国产互连+国产系统软件”的协同体系尤为重要。
-
全栈垂直整合能力
百度是国内少数实现了“自研芯片(昆仑芯)+自研框架(飞桨)+自研超节点(天池)+自研大模型(文心)”全栈垂直整合的厂商。这种深度整合允许针对文心大模型进行软硬件协同优化,从芯片微架构、框架通信原语到集群互联拓扑均可量身定制,从而获得更高的训练效率,并有效控制核心算力设施的采购与运行成本。
-
真正的国产AI芯片自主可控
搭载自研昆仑芯确保了天池超节点核心算力供应的长期稳定与可持续性。同时,百度能够根据文心大模型演进的特定需求(如新的数据类型、稀疏化特性)来定义下一代昆仑芯的功能,使其硬件始终保持对自身软件生态的最佳适配。这关乎未来在人工智能领域的核心竞争力。
-
深度绑定飞桨生态,降低迁移门槛
飞桨作为国产主流的深度学习框架,拥有完善的训推一体工具链,在产业与特定行业市场中已建立竞争优势和用户基础。天池超节点与飞桨生态的深度绑定,能够显著降低现有飞桨用户向大规模算力集群迁移的学习与适配成本,形成强大的生态锁定效应。对于构建大规模云原生AI算力平台而言,软硬件生态的完整性至关重要。
|