云栈社区»论坛 › 技术文档「 Note & Doc 」 › 万卡集群网络技术选型：深入解析RDMA原生IB与以太网RoCE的性能鸿 ...

发回帖发新帖

5872 积分	0 好友	727 主题

发消息

万卡集群网络技术选型：深入解析RDMA原生IB与以太网RoCE的性能鸿沟

发表于 2026-3-10 02:20:45 | 查看: 397| 回复: 0

数据中心与网络拓扑概念图

随着AI大模型训练进入“万卡”时代，计算集群的架构正从单系统纵向扩展，转向由数万个节点横向互联的复杂形态。在这种性能高压下，网络互联技术的重要性被重新推至台前，而“RDMA国产化”也再度成为业界热议的焦点。

RDMA（Remote Direct Memory Access），即“远程直接内存访问”，本质上是一种旨在提升效率的网络通信协议。它允许一台计算机绕过操作系统内核，直接访问另一台计算机的内存。这种机制极大地解放了CPU的工作压力，有效降低了通信延迟，并显著提升了数据传输速率与整体计算性能。

从网络协议的具体实现来看，RDMA主要分为三大技术路线：InfiniBand（IB）、RDMA over Converged Ethernet（RoCE）以及Internet Wide Area RDMA Protocol（iWARP）。

目前，IB是高性能计算领域公认的顶级解决方案，但其技术生态长期由Mellanox（现已被英伟达收购）主导，国内厂商获取核心技术和生态支持存在较高门槛。RoCE则被视为IB的一种“高性价比”替代方案，国内众多厂商正致力于基于RoCE追赶IB的网络性能，但其核心网关芯片同样依赖博通等海外厂商。iWARP基于TCP/IP协议，性能相对较弱，本文不做深入讨论。

IB、RoCE、iWARP技术对比表

近年来，超大规模智算集群的扩展需求爆发式增长，以IB和RoCE为代表的两大主流网络技术路线，在实际性能上的差距日益凸显。尤其是在面向万卡级计算系统的高速互联场景下，后者作为IB的“低成本替代品”，所承受的网络性能压力巨大。尽管国内不乏RoCE的重要参与者，却始终难以完全替代IB的地位。

究其根本，这两条技术路线在设计上就存在本质差异：

InfiniBand (IB)：作为专为高性能计算设计的网络通信标准，IB天生具备极高的吞吐量和极低的延迟。它主要用于服务器间、服务器与存储系统间的直接或交换互连，是一种RDMA原生的网络协议。IB网络需要通过专用硬件来实现最优性能，这也导致了较高的设备成本，且其技术生态长期被海外阵营垄断，成为国产厂商难以企及的“白月光”。

RoCE：这更像是一种“曲线救国”的折中方案。RoCE基于以太网链路层协议，其v1版本在网络层仍使用了IB规范，而v2版本则使用了UDP+IP，使得数据包可以被路由。RoCE被认为是IB的“低成本解决方案”，可以将IB报文封装成以太网包进行收发。由于RoCE v2可以使用标准的以太网交换设备，过去在国内企业中的应用相对广泛。但在相同场景下，其性能相比IB有明显损失，这也成了国产算力扩展中一个难以回避的痛点。

具体而言，RoCE与IB在以下几个关键维度上存在显著差距。当面对万亿参数模型和万卡计算集群成为主流的今天，这种性能鸿沟已变得难以承受。

带宽：目前市场上最新一代IB网络是NDR(400G)，而国内RoCE网络最高仅能提供200G带宽的产品，两者之间已拉开整整一个代差。
延迟：IB交换机可以实现“存储转发”或更优的“直通”模式，交换延时可低至100ns量级。而RoCE交换机通常需要先存储再转发，交换延时普遍在300ns~500ns，在短消息频繁交互的训练场景中，这种差距会被急剧放大。
流控机制：IB网络采用基于信用（Credit-based）的流控方案，能够保证报文不会因为接收端资源不足而被丢弃，实现了真正意义上的无损网络。RoCE网络则基于无损以太网的PFC（优先级流控制）暂停机制，该方案在实际大规模组网中仍有较大的丢包风险，对于追求稳定性的长时间训练任务而言，这是很难接受的。
拥塞控制：RoCE网络严重依赖拥塞控制机制来避免因拥塞导致的丢包，厂商通常会强制要求用户开启此功能。但其拥塞控制算法（如DCQCN）中水线（Threshold）的调整，与网络拓扑结构及具体应用流量模型紧密相关，非常依赖运维人员的经验。IB网络得益于其优秀的流控机制，拥塞控制并非必须选项；即便开启，其效果也不依赖于复杂的人工水线调整，使得整个网络系统的使用和维护更为简单。
组网规模：目前IB网络已被验证可支持数万节点以上规模的组网，且在整个集群范围内都能保持极佳的性能一致性，因此在顶级超算和智算场景中获得了广泛认可。RoCE网络虽然在理论上也支持较大规模组网，但由于其在跨POD（性能域）通信时性能衰减较为明显，厂商通常不建议进行大规模的跨POD通信，更适用于中小规模的集群组网。

基于交换机的网络容错拓扑示意图

此外，在实际的网络部署与运维层面，IB网络通常配置简单，接近于“即插即用”。而RoCE作为以太网络的一种增强，其配置过程相对复杂，涉及PFC、ECN、DCQCN等诸多参数的调优。这导致RoCE的用户需要在集群运行过程中持续观察网络状态并进行针对性配置，运维成本较高。IB网络则需要在前期掌握其专用管理指令，一旦配置完成，后续的维护工作反而相对轻松。

伴随着超大规模智算集群建设不断提速，网络互联性能已成为释放庞大算力效能的关键瓶颈。受限于RoCE与IB之间的种种差距，发展国产高性能RDMA技术的呼声日益高涨。近期业内亦有消息称，已有头部计算厂商将目光投向了追求原生无损特性的国产IB网络路线。

但需要正视的是，相较于已在国内市场有广泛应用的RoCE方案，IB路线的国产化生态起步较晚。对于部分用户而言，可能仍需通过IPoIB（IP over InfiniBand）功能来运行某些基于IP协议的传统应用，在特定场景下的性能表现可能面临挑战。

当然，IB技术本身符合IBTA开放标准，协议生态相对开放，且能与主流技术路线兼容，其应用价值与市场前景毋庸置疑。

事实已经证明，真正的RDMA高性能体验，很难通过基于以太网的RoCE方案来完美模拟或替代。对于志在跑赢万卡时代的中国AI产业而言，进军高性能的原生IB技术路线，似乎已成为一道必须跨越的战略隘口。

期待国内厂商能够持续攻坚，在高性能网络与云原生算力基础设施领域取得突破，真正补全中国AI计算产业链中的这关键一环。对此话题有更多见解或实践经验，欢迎在云栈社区这样的技术论坛与广大开发者交流探讨。

上一篇：Obsidian QuickAdd v1.16.0发布：智能建议系统如何为万条笔记库提速40%
下一篇：英伟达HBM4需求推动存储短缺，AI芯片巨头黄仁勋为何乐见涨价？

RDMA, InfiniBand, 高性能计算, 人工智能, 网络互联

万卡集群网络技术选型：深入解析RDMA原生IB与以太网RoCE的性能鸿沟

相关帖子