随着AI大模型训练与多模态推理需求持续放大,算力规模也在急剧扩张。在这一背景下,网络性能已经成为决定整个AI系统上限的关键因素。它不仅需要提供更高的带宽,还必须通过更少的网络层级来实现低成本与低时延的互联,这对于大规模云计算集群的效率至关重要。
基于对超大规模AI集群的长期实践与深入思考,火山引擎近期正式发布了其102.4T自研交换机,并以此为核心支撑了新一代HPN 6.0架构。该架构旨在为十万卡级别的GPU集群提供高效、可靠的互联底座,以应对日益增长的海量算力需求。
火山引擎102.4T自研交换机

这款交换机的核心是其搭载的Lambda OS网络操作系统。Lambda OS基于开源的SONiC系统,结合了火山引擎在具体业务场景和大规模网络运维中积累的丰富经验,进行了深度的产品化定制与创新,以满足高性能计算场景的严苛要求。

挑战:AI流量的网络负载不均
在AI大模型训练过程中,网络流量呈现出显著的大流(Elephant Flow)和少流(Paucity of Flows)特征。这种不均衡的特性容易导致传统网络方案中出现负载不均的问题:部分链路可能处于空闲状态,而另一些链路则因拥塞而丢包。这种状况会使得网络带宽的实际利用率从设计的90%骤降至50%以下。
更具体地说,传统基于Hash的选路算法可能导致流量分配不均,使得部分链路的延迟急剧飙升,从而拖慢整个集群的参数同步速度。我们可以做一个简单的估算:假如某条链路的拥塞导致同步延迟增加了10毫秒,那么在模型训练迭代1000次后,累积增加的总延迟将达到10秒。这不仅严重影响了模型训练的整体效率,也会对最终推理服务的用户体验造成负面影响。
解决方案:可扩展的全局负载均衡(SGLB)
为了解决上述核心痛点,火山引擎与芯片厂商进行了深度合作,联合开发了业界首个可扩展的全局网络负载均衡技术——SGLB(Scalable and robust Global Load Balancing)。
SGLB技术能够基于全局网络拓扑,实现微秒级别的链路拥塞状态感知,并据此动态计算出端到端的最优传输路径。根据实测性能数据,相较于传统的Hash选路方式,采用SGLB技术后,GPU集群的网络带宽利用率可提升高达40%,有效解决了因负载不均导致的性能瓶颈。
这项技术的详细设计与验证已被学术论文所记录。

新一代融合网络架构 HPN 6.0
依托于102.4T自研交换机在软硬件一体化方面积累的深厚能力,火山引擎进一步推出了面向训练与推理一体化场景的融合网络架构——HPN 6.0。该架构围绕“规模、融合、确定性”三大核心目标,旨在重新定义超大规模算力集群的网络基础设施,为下一代AI应用提供坚实可靠的底层支持。
想要了解更多前沿技术动态与深度解析,欢迎访问云栈社区,与广大开发者共同交流成长。
|