
当GPT-4级别的模型携万亿参数震撼业界,当AI训练集群规模突破数千台GPU大关,传统互联技术的瓶颈日益凸显。数据中心的算力革命,正卡在“最后一公里”——如何让海量计算单元高效协同,实现低延迟、高带宽的无缝连接?由AMD、Intel、Broadcom等行业巨头联合推动的UALink与UEC标准,正以“AI原生”的设计理念,重新定义GPU互联的黄金准则。

AI模型规模的指数级增长,正在彻底颠覆传统计算架构的底层设计逻辑。训练万亿级参数的大模型,对应的AI集群规模已扩展至数千台GPU,而训练所需的数据带宽每6个月就可能翻一番。在这种压力下,传统互联技术暴露出了三个结构性的短板。
1. 带宽与延迟的矛盾
AI训练需要双向高带宽来传输海量张量数据,同时要求超低延迟以保证大规模并行计算的同步性。传统的PCIe 5/6标准虽然成本可控、生态广泛,但其点对点拓扑缺乏GPU之间的直接通信能力,64-128 GB/s的带宽在面对千台级集群时已显捉襟见肘。而像NVLink这样的私有技术虽能实现50-80ns的低延迟和高达900 GB/s的带宽,却受限于厂商锁定,难以构建开放的、超大规模集群。

2. 扩展性瓶颈
无论是封闭生态的环形拓扑,还是受架构限制的点对点设计,传统互联技术在集群规模突破百台GPU后,性能往往会出现断崖式下降。数据显示,采用传统技术的AI集群在规模超过200台后,有效带宽利用率可能从80%骤降至40%以下,大量宝贵的算力被消耗在数据搬运而非实际计算中。
3. 语义不匹配
AI计算本质需要的是“内存语义”——即GPU能够像访问本地内存一样,直接对远端GPU的内存进行加载、存储和原子操作。然而,大多数基于网络的互联技术采用“网络语义”,需要通过DMA引擎和复杂的网络协议栈进行消息传递,这引入了额外的数据拷贝和协议处理开销,成为制约AI训练效率的核心瓶颈之一。

正是这些深层次的矛盾,催生了UALink与UEC的诞生。这两项标准分工明确,协同作战:UALink聚焦于“纵向扩展”(Scale-up),解决单个计算荚(Pod)内数百台GPU的高速直连问题;UEC(超以太网联盟)则主打“横向扩展”(Scale-out),旨在实现跨Pod、跨数据中心的大规模集群协同。

一、UALink:GPU到GPU的专用互联
UALink的核心定位是“GPU到GPU的专用互联通道”,专为解决单个Pod(通常包含1-4个机架)内数百台GPU的高效协同而设计。其技术架构的每一处细节,都深刻体现了“为AI而生”的设计哲学。

UALink最关键的创新在于其原生的内存语义支持,这使其成为开放标准中唯一支持此特性的互联技术。与复杂的网络语义不同,内存语义允许GPU直接对远端GPU的内存进行读写和原子操作,无需任何中间的消息传递协议。这带来了两大核心优势:
- 软件栈极简:应用层开发者无需处理复杂的DMA配置和网络协议,通过常规的
malloc、memcpy等内存操作API即可实现跨GPU数据访问,大幅降低了开发门槛。
- 延迟极致优化:端到端延迟可控制在250纳秒左右,引脚到引脚的延迟更是低于100纳秒,请求-响应往返时间(RTT)小于1微秒,性能接近本地内存访问。

为实现极致的低延迟,UALink在物理层和协议层做了多重优化:采用固定大小的FLIT(帧片段,如64B/640B)进行封装,避免了数据包拆分与重组带来的开销;支持链路层重传和基于信用的流量控制,减少了因传输错误导致的延迟波动;其物理层基于IEEE P802.3dj标准,通过单向和双向码字交织技术进一步降低了信号延迟。

UALink的性能参数完全对标大规模AI训练的需求:
- 带宽密度:单通道速率支持128 Gbps和200 Gbps,4个通道组成一个“站点”(Station)可提供800 Gbps的全双工带宽,远超PCIe 6.0的128 GB/s(约1 Tbps)。
- 扩展性:单个Pod可支持最多1024台GPU,通过全连接网状或混合拓扑,确保任意两台GPU之间都能实现高效互访。
- 带宽利用率:通过数据包压缩、高效的FLIT打包和前向纠错优化,其有效带宽利用率可达88%-95%,远高于传统以太网的60%-70%。

功耗优化同样值得关注。UALink通过简化协议栈和物理层设计,相比传统互联技术减少了约40%的芯片面积和互联功耗,这对于动辄部署数千台GPU的AI数据中心而言,意味着总拥有成本(TCO)的显著降低。
UALink采用清晰的分层架构,在保证与现有生态兼容的同时,实现了核心功能的创新:
- 物理层:基于标准以太网PHY,支持多种速率,可直接复用现有以太网的线缆、连接器和光模块,降低了部署成本。
- 数据链路层:独创的设计,支持虚拟通道、链路层重传和端到端加密认证,确保了传输的可靠性与安全性。
- 事务层与协议层:专为GPU互联优化,支持地址排序、多源多目数据包打包以及请求/响应压缩,进一步提升了传输效率。

这种分层设计赋予了厂商极大的灵活性,既可以选择标准的以太网PHY以控制成本,也可以定制数据链路层和事务层以追求极致性能。
二、UEC:跨集群互联的“AI专用以太网”
如果说UALink解决了单个Pod内的“局域网”高速互联问题,那么UEC则聚焦于跨Pod、跨数据中心的“广域网”级互联。作为一套开放的以太网扩展标准,UEC在保留以太网生态所有优势的基础上,针对AI工作负载进行了深度优化。
传统以太网虽具备生态丰富、成本低廉、扩展性强等优点,但在AI场景下面临延迟高(约500纳秒)、带宽利用率低、不支持内存语义三大痛点。UEC通过一系列创新实现了突破:
- 传输层优化:支持有序和无序交付API,减少了数据包在接收端重排序的延迟;采用多路径传输和数据包喷洒技术,有效避免了网络拥塞点。
- 智能拥塞控制:无需针对特定工作负载进行繁琐调优,即可自动达到线速传输,同时保证不影响网络中的其他数据流。
- 超大规模扩展:设计支持百万级端点互联,足以满足未来超大规模AI集群的扩展需求。
UEC的端到端延迟(约500纳秒至1微秒)虽然高于UALink,但远低于传统以太网,并且支持Multi-Tbps级别的聚合带宽,完美适配跨Pod的大规模AI训练和推理场景。
UEC最大的优势在于其与现有以太网生态的无缝兼容性。全球绝大多数数据中心已部署基于以太网的IP网络,UEC可以最大程度地复用这些基础设施:
- 硬件兼容:支持现有的以太网交换机、网卡、线缆和光模块,无需进行大规模硬件替换。
- 软件兼容:支持
libfabrics等现有网络库,以及CCL、MPI等主流的并行计算框架,应用层代码无需大幅修改。
- 工具链成熟:可以直接沿用整个以太网生态中成熟可靠的测试、部署和运维工具,极大降低了集群管理的复杂度。
这种高度的兼容性意味着企业现有数据中心可以平滑、低成本地过渡到UEC架构,这是其获得业界广泛支持的关键原因。
三、UALink+UEC为何能成为黄金标准?
一项技术能否成为行业标准,不仅取决于其技术先进性,更取决于背后的生态支持与行业共识。UALink与UEC在这方面的优势十分明显。
1. 强大的行业背书
UALink联盟和UEC联盟的创始成员涵盖了AMD、Intel、Broadcom、HPE、Cisco等芯片、服务器和网络设备领域的巨头,构成了完整的产业链。截至2025年,UALink联盟的成员单位已超过百家,包括众多国内科技企业,以及Arm、Cadence、Synopsys等产业链关键厂商。

生态支持已从标准制定快速走向产品落地:Siemens EDA已推出UALink验证IP;Broadcom、Marvell等公司正在开发兼容UALink的交换机芯片;Astera Labs等厂商已发布支持UALink的连接芯片和模块。随着2025年UALink 1.0规范正式发布,首批商用产品正逐步推向市场。
2. 清晰的技术路线图
UALink和UEC的发展规划紧密对标AI算力的增长曲线:
- 短期(2025-2026):UALink 2.0版本将支持400 Gbps的单通道速率,UEC将实现1.6 Tbps的端口速率,进一步提升带宽密度。
- 中期(2027):UEC将支持纵向扩展网络(ULN),实现UALink与UEC网络的无缝融合,助力单集群规模突破10万台GPU。
- 长期展望:计划引入网内集合通信(INC)技术,将部分AI计算任务(如All-Reduce)卸载到网络设备中执行,进一步降低端到端延迟和主机CPU负载。

3. 开放的竞争格局
面对NVLink、PCIe 7.0等竞争技术,UALink+UEC组合的核心竞争力在于“开放标准”与“AI原生设计”的双重优势:
- 对比NVLink等私有技术:UALink+UEC是开放的行业标准,支持多厂商设备互联互通,有效避免了厂商锁定,更适合追求灵活性和成本控制的大规模数据中心部署。
- 对比PCIe 7.0:PCIe标准虽在带宽上持续演进,但其本质是为CPU与外围设备互联设计,缺乏GPU间直接通信所需的内存语义,在AI集群场景下的通信效率存在先天不足。
- 对比传统以太网:UEC针对AI工作负载特性,在延迟、带宽利用率和拥塞控制等方面做了专项优化,同时完全保留了以太网的生态兼容性,是跨集群互联的最优解。
四、互联革新将释放AI算力新潜能
AI领域的竞争,本质上已是算力规模与利用效率的竞争。算力的瓶颈早已从单芯片性能转向集群整体互联效率。UALink与UEC的出现,首次为AI集群提供了一套从芯片级直连到数据中心级互联的、端到端的开放标准解决方案。
这两项标准的普及将催生两大行业变革:一是显著降低AI基础设施的总拥有成本,通过开放生态和功耗优化,让更多企业能够负担起大规模AI集群;二是加速AI模型的创新迭代,开发者可以将精力从复杂的跨GPU通信优化中解放出来,更专注于模型算法本身的突破。
随着2025年UALink 1.0规范商用落地,以及2027年预期中的大规模行业采纳,我们正步入一个“超互联”的AI算力新时代。UALink与UEC不仅是互联技术的升级,更是对整个AI计算架构的重构。它们将成为未来数年AI基础设施的核心支柱,为更复杂、更强大的通用人工智能奠定坚实的硬件基础。
对于人工智能和基础设施领域的技术从业者而言,现在正是深入了解和学习这两项标准的最佳时机。无论是从事芯片设计、系统架构,还是AI应用开发,理解UALink与UEC的技术原理与生态趋势,都将在未来的职业发展中占据先机。