
在昆山举办的光合组织2025人工智能创新大会(HAIC2025)现场,一套名为中科曙光scaleX万卡超集群的庞大计算系统,以其震撼的物理形态成为全场焦点。这套系统并非停留在设计图纸或宣传照片中,而是实实在在、正在运行的实体集群。

(图为HAIC2025大会现场展出的scaleX集群)
根据现场技术专家的介绍,scaleX万卡超集群的架构设计非常清晰。它由16个scaleX640超节点构成,每个超节点最大可集成640张AI加速卡,整套集群总计包含超过10240张AI加速卡,总算力输出超过5EFLOPS。

(图为scaleX集群架构示意图)
在存储方面,集群的HBM(高带宽内存)总容量超过650TB,总带宽超过18PB/s,为AI计算核心提供了充足且高速的数据供给。片间互连总带宽大于4.5PB/s,柜间互连总带宽大于500TB/s,确保了万级规模加速卡在协同计算时的高效数据流通。

一、ScaleX超节点:极致算力密度的基石
这套万卡超集群的基础单元是曙光scaleX640超节点。它是全球首个单机柜级、可部署640卡的AI超节点,其单机柜算力密度是传统超节点的20倍。

在实际部署中,通常采用“一拖二”的形态:一个液冷单元位于中间,为左右两侧的两个计算机柜进行散热。这两个机柜共同构成一个包含1280张加速卡的千卡级计算单元,总算力超过600PFlops。该液冷方案最高可提供1.7MW的散热能力,结合高压直流供电等技术,能够将数据中心的PUE(电能使用效率)优化至惊人的1.04。

二、ScaleFabric网络:十万卡无损互联的高速路网
构建万卡乃至更大规模集群的关键挑战之一是网络互联。为解决此问题,曙光自研了名为 scaleFabric 的原生RDMA高速网络。这套网络在设计之初就瞄准了更大规模的集群扩展,单套网络即可支持高达10万张卡的互联,而传统的IB(InfiniBand)网络最大支持规模通常在4万余张卡。

ScaleFabric网络底层采用RDMA(远程直接内存访问)技术,能够将端到端延迟压缩到亚微秒级(~1us)。单链路带宽可达400Gbps,并采用无阻塞拓扑设计,确保在高并发数据流(如大模型训练)场景下,比RoCE(RDMA over Converged Ethernet)等方式具有更高的效率。同时,通过类似于IB网络的信用流控和链路层重传机制,实现了网络传输的无损特性,有效避免了丢包和抖动。此外,基于scaleFabric的组网,在网络链路发生故障时,恢复时间可低至毫秒级,保障了大规模集群的稳定运行。
三、存储方案:打通数据供给的“超级隧道”
当计算规模达到万卡级别时,存储系统往往成为性能瓶颈。为了将数据高效、稳定地“喂给”庞大的计算集群,曙光构建了一条从存储到网络的“超级隧道”。这条“隧道”通过芯片级、系统级和应用级的三层协同优化,打通了存储、网络与计算之间的数据通路,减少CPU的无效调度开销,据称可将大模型训练效率提升30-40%,GPU利用率最高可提升55%。

曙光还让存储系统深度介入AI业务流水线,使其从一个被动的“数据仓库”转变为主动的“AI数据工厂”,承担部分计算与加速任务。其面向万卡集群推出的ParaStor F9000分布式全闪存存储,结合了曙光多年的技术积累与以HG为代表的国产芯片,旨在大幅压缩类似GPT-4级别模型的训练周期,满足海量数据的低延迟、高吞吐访问需求,这类高性能存储是构建现代云原生数据密集型应用的关键基础设施。
四、智能管理与调度:保障99.99%可用性
面对万卡集群节点故障常态化的现实,scaleX超集群通过智能化手段实现了长期可用性99.99%的目标,即使节点故障,业务侧也几乎无感知。
其核心方法之一是建立集群的“数字孪生”系统。该系统构建了一个与物理集群完全对应的虚拟镜像,实现了对全域状态的透明监控、精准的故障定位、及时的自动修复、问题的自主复盘以及动态仿真推演。

在此基础上,智能运维平台中的“AI运维助手”能够自动完成从实时分析、智能诊断、根因定位到故障恢复的完整流程,替代了传统的人肉运维。同时,一套高效的“智能调度引擎”能够在一个万级节点的超大集群中,面对十万级用户提交的多样化任务,实现每秒万级作业的调度,从而将集群的整体利用率最大化。
这套万卡超集群不仅仅是一个强大的计算实体,其背后更承载着构建开放AI计算架构的理念。曙光致力于将计算底座做强做大(支持万卡、十万卡),同时打通上下游技术链路,吸引更多生态伙伴加入,目标是打造一个能够兼容多元硬件、支持灵活组合与持续迭代的开放计算体系,而不仅仅是单一品牌的封闭产品。
|