最近关注算力圈的朋友,想必都绕不开郑州的这个大动作。
今年2月5日,国家超算互联网核心节点在郑州正式投入试运行。更引人注目的是,该节点一口气同步部署了3套中科曙光ScaleX万卡超集群。这标志着,全国首个实现3万卡部署、并已实际投入运营的最大规模国产AI算力池就此诞生。

在大模型参数量向万亿乃至更高量级狂奔的当下,这种“集中式、一次到位”的部署方式,本身就是一个明确的信号:对于未来大规模的AI算力需求,我们正在采取一种更根本、更体系化的应对策略。
万卡集群:为什么不再“慢慢堆”?
过去几年,国内的算力建设主要是在补短板,追求的是“能多一台是一台”的增量。然而,当模型规模真正跨越某个临界点后,一系列现实且棘手的问题便开始浮现:
- 算力不集中,模型训练的稳定性和连续性就难以保障;
- 集群内通信效率不确定,规模稍一放大,整体效率就可能急剧下降;
- 资源调度跟不上,即便有再多的加速卡,也可能无法高效协同工作。
国家超算互联网核心节点显然没有选择“试探性”的路线。3套ScaleX万卡超集群同步落地,直接将算力的集中度拉满。这不仅仅是为了追求一个好看的规模数字,更是为了确保大模型训练、推理等高强度任务能够长期、稳定、高效地运行下去。
实现这一目标,背后是极其复杂的系统工程。中科曙光攻克了高速互联网络、存算传紧耦合设计、高密度供电与散热、统一资源高效调度等一系列技术难题,使得单套ScaleX集群就能部署高达10240块AI加速卡。三套集群协同运行,绝非简单的物理叠加,而是一次从硬件到软件的系统性能力升级。
核心节点:一出生就走的“满配”路线
作为国家超算互联网的重要枢纽,郑州核心节点的定位决定了它不能只是一个普通的算力池。它既要有效联动西部丰富的绿色算力资源,承接东部地区旺盛的算力需求,也要应对跨区域调度、支撑需长期稳定运行的国家级重大应用,最终助力形成全国一体化的算力网络。
这对底层的算力基础设施提出了几项硬性要求:
第一,算力必须高度集中。
当前的大模型训练越来越依赖于同构的计算资源,零散、拼凑式的算力很难支撑完整的、大规模的整机训练任务。ScaleX万卡超集群从设计之初就是为规模化集中计算而生,并且在架构上预先留出了向十万卡、甚至百万卡规模平滑扩展的空间。
第二,能耗与散热必须“扛得住”。
基于全球首创的高密度单机柜设计,ScaleX采用了超高密度刀片服务器、浸没相变液冷等先进技术。这不仅将单机柜的算力密度提升了约20倍,更将PUE(电源使用效率)值压制在1.04左右的极低水平。对于需要7x24小时不间断运行的国家级节点而言,这是保障长期稳定性和经济性的必备条件。
第三,生态兼容性必须足够友好。
ScaleX万卡超集群不仅兼容CUDA等主流AI开发生态,还支持多品牌国产AI加速卡的混合部署与统一调度。对于广大开发者和企业用户来说,这意味着国产算力生态首次实现了“大团结”,从现有平台迁移过来的成本和风险都变得更加可控。
万卡的价值:真的只是算得更快吗?
如果仅仅是将大量计算芯片堆砌在一起,那并不稀奇。真正拉开差距的,是“用起来到底怎么样”。
据悉,ScaleX万卡超集群已经完成了超过400个主流大模型、世界模型的适配与优化。依托国家超算互联网的平台,未来更可接入上千款AI应用,链接更多产业生态伙伴,真正实现“算力+应用”的一体化交付。
在具体场景中,它的价值已经得到验证:
- 超大规模模型训练:已具备支撑万亿参数模型进行整机训练与快速容错恢复的能力,这对于动辄需要连续运行数月的大模型训练任务至关重要。
- 高通量AI推理:已服务于多家头部互联网企业的核心智能化业务,并通过联合深度优化,持续提升在线推理的能效比。
- AI for Science(科学智能):支撑国内某顶尖材料研发大模型登顶国际权威榜单;帮助国内科研团队将蛋白质结构预测等研究的效率提升了3到6个数量级。同时,搭配其OneScience科学大模型一站式开发平台,能够大幅降低多学科交叉研究的创新门槛。
这些落地场景共同指向一个核心:构建万卡集群的终极目标,从来不是为了追逐一个更大的数字,而是为了实实在在地服务好AI产业从研发到应用的全链条真实需求。
一个越来越清晰的趋势
回过头看,国家超算互联网核心节点此次的部署,释放出了一个非常清晰的信号。
国产算力的竞争赛道,正在从比拼单点芯片的峰值性能,全面转向比拼体系化的综合服务能力。未来的较量,不只在于“单科成绩”有多高,更在于谁能将万卡乃至更大规模的算力集群长期、稳定、低成本地运行起来,谁能真正支撑起从产业实践到国家级战略任务的多元化、高强度需求。
3套ScaleX万卡超集群在国家级核心节点的同步落地并投入运营,本身就是对上述趋势的一次有力回答。对于关注云计算与人工智能前沿动态的开发者而言,这无疑是一个值得深入观察和思考的行业里程碑。