大佬

3169 积分	0 好友	419 主题

发消息

Eridu融资2亿美元研发高基数AI交换机，挑战英伟达NVSwitch网络瓶颈

发表于 2026-3-14 09:03:43 | 查看: 99| 回复: 0

有时，IT领域的创新源自超大规模数据中心和云计算。但早在这些公司崛起之前，真正的创新往往来自电信和服务提供商行业，随后才被引入到数据处理领域。

新兴网络芯片公司 Eridu 便延续了这一传统。该公司近期正式结束隐身模式，并成功完成了超过2亿美元的A轮融资。其核心目标是为AI训练集群打造一种极高基数（Radix）的交换系统，旨在“扁平化”网络结构，从而降低延迟并削减网络成本——这部分成本通常占AI集群硬件总购置成本的20%以上。

无论是超大规模数据中心、云服务商还是高性能计算中心，都不希望看到网络成本超过分布式计算系统总成本的10%。而当这个比例上升到30%时，他们更是难以接受。这里的网络成本，既包括将GPU、XPU内存互连以组成机架级乃至未来行级系统的纵向扩展（Scale-up）网络，也包括使用为高性能计算开发的MPI协议变体，将成千上万个此类系统连接成更松散耦合集群的横向扩展（Scale-out）网络。

如果全面核算AI硬件的网络成本，企业还必须考虑连接应用程序与AI集群的前端网络。与构成AI集群核心互连的横向扩展网络相比，这些前端网络的速度通常要慢得多。

目前，Eridu 对其具体技术方案仍然守口如瓶。当我们反复追问是否在研发一款具有海量高速端口、超低延迟和超高带宽的以太网交换机时，公司创始人只是点头微笑，未予置评。

长期以来，业界对用于互连GPU的PCI-Express交换机端口数量不足（即低基数）以及单通道带宽有限的问题多有诟病。这导致总带宽难以支撑机架级系统，更不用说规模更大的行级系统了。

尽管新的UALink互连规范在传输速率上足以媲美英伟达为其GPU开发的NVSwitch内存架构，但尚未有厂商保证能制造出突破该规范极限、足以在内存架构领域与英伟达竞争的UALink交换机ASIC。理论上，UALink交换机能在单层网络下支持多达1024个GPU或XPU在共享内存域中协同工作，远超当前NVSwitch 3支持的72个GPU。当然，英伟达理论上也可通过多层NVSwitch 3架构支持多达288个GPU，但这并未得到商业支持，且会增加GPU间内存访问的延迟跳数。

在深入了解Eridu的技术之前，有必要先认识其三位创始人。他们的背景深厚，在电信和服务提供商领域取得过巨大成功，这为新理念的市场化潜力提供了有力背书。

Eridu的联合创始人Drew Perkins是一位拥有45年从业经验的连续创业者。他于1986年从卡内基梅隆大学毕业，参与了包括IP协议开发在内的多个早期互联网项目。1987年，他创立了Entelechy并设计了自认为的首款多端口以太网交换机，但产品未能商业化。

1990年，Perkins联合创立了早期网络附加存储供应商InterStream。一场由酒驾引发的严重车祸让他住院两年多。康复后，他加入了为早期商业互联网提供ATM骨干网的Fore Systems公司，担任首席架构师。1998年，他联合创立Lightera Networks并担任CTO，该公司开发的CoreDirector光交换机后被Ciena以5.5亿美元收购。此后，他还在OnFiber Communications和Infinera担任要职。据称，Infinera开发了世界上首款硅光子集成电路，该公司于2007年上市，并于2024年6月被诺基亚以23亿美元收购。

2014年，Perkins在植入人工晶体治疗白内障后，利用休假时间创立了致力于开发“智能隐形眼镜”的Mojo Vision公司。2023年3月，他卸任Mojo Vision CEO，创立了Eridu。

另外两位联合创始人分别是首席产品官Omar Hassen和首席业务拓展及市场营销官Mike Capuano。Hassen此前曾担任RISC-V服务器芯片制造商Ventana Systems的业务拓展高级副总裁，更早之前在Arm服务器芯片初创公司AppliedMicro负责产品开发。Capuano则拥有在瞻博网络（Juniper Networks）、思科系统（Cisco Systems）、Infinera以及后来被Arista Networks收购的Pluribus Networks等公司丰富的市场营销和销售经验。

以上是创始团队的背景。现在，来看看他们融了多少钱。

Perkins向媒体透露，公司迄今已筹集超过2亿美元。业内传言其种子轮约为3000万美元，A轮则超过2亿美元。这笔巨额资金对于挑战英伟达的NVSwitch和Spectrum-X网络技术，并与博通、思科系统、Marvell等为AI系统构建网络ASIC的巨头竞争而言，是必不可少的。

Eridu的A轮融资由Socratic Partners、知名投资人John Doerr、Hudson River Trading、Capricorn Investment Group和Matter Venture Partners领投。SBVA、Bosch Ventures、TDK Ventures、Eclipse Capital和VentureTech Alliance也参与了投资。

预计到2030年，人工智能硬件支出将达到数万亿美元。这意味着网络领域将蕴含着数千亿美元的巨大市场机遇。如此规模的市场足以驱动创新、促进竞争，并可能重塑英伟达目前在AI计算和网络领域的领先地位。

至于如何实现这种高基数交换，Perkins和Hassen依然不愿透露太多细节。但他们提供了一张展示其技术愿景的架构图：

Eridu高基数交换机架构与优势对比图

图中对比了现有低基数交换机组成的Clos网络与Eridu高基数单交换机方案。假设对比使用的是当前主流的51.2 Tb/s以太网交换机ASIC（而非即将面世的102.4 Tb/s设备），Eridu的方案展示了巨大优势：可扩展至支持百万GPU的集群，构建包含数千GPU的单跳扩展域，同时降低70%的功耗和40%的成本，并拥有更高可靠性、更低延迟以及更简化的布线与管理。

“GPU插槽的性能和功耗正以惊人的速度提升，但网络性能却没有跟上，” Perkins解释道。他补充说，这种提升涵盖了降低计算精度、优化软件栈和硬件等多个层面。“网络性能每两到三年才翻一番，这远远不够。Eridu的创立正是为了解决这个问题。”

“我们希望将网络性能提升一个数量级，因为这些GPU必须被高效互连，” Perkins继续说道。“单个GPU能力有限，但当数量达到数十万甚至百万级时，你才拥有构建强大AI所需的海量算力。但网络速度必须足够快才能跟上计算节奏，否则GPU将有大量时间处于闲置状态，等待数据送达。”

我们尚不完全清楚Eridu的具体实现方案，但可以结合已有信息进行一些推测。

上图清晰地表明，Eridu旨在开发一种新的交换机ASIC架构和系统设计，以在纵向扩展网络中互连数千个GPU/XPU，并在横向扩展配置中支持数百万个计算引擎。

假设在一个典型的Clos叶脊网络架构中，交换机拥有64个端口，运行速度为800 Gb/s，那么该网络可以互连1280个GPU端口。实现单个设备支持1280个端口的一种传统方法是构建带有独立背板的模块化交换机，但这成本高昂。

另一种思路是制造一个超大型的交换机插槽。但这种方法存在“芯片周边I/O区域与核心处理区域”的矛盾：随着交换机数据包处理引擎面积的增大，能够部署SerDes（用于外部通信）的边缘区域与核心处理能力的比值会下降。此外，过大的芯片也会导致直通延迟增加。

对此，Hassen指出：“这只是次要问题。首要问题是，如果你通过拼接多个小芯片来构建大交换机，数据包就必须在芯片间穿越并被多次存储转发。因此，你必须从一张白纸开始，设计一个具有足够扩展性的交换架构。”

这让我们联想到晶圆级交换机ASIC的可能性，尽管Perkins和Hassen对此不置可否。使用芯粒（Chiplet）技术可以提高良率，但会增加芯粒间互连的功耗。要彻底解决带宽与处理能力的平衡问题，或许需要在晶圆级数据包处理引擎的边缘堆叠大量SerDes，或者使用大容量SRAM缓存来管理数据流。

该公司确认，其最终方案将基于以太网，并运行适用于内存架构和横向扩展网络的相应协议。从交流中判断，其技术路径可能不同于谷歌用于其TPU集群的光路交换机（Optical Circuit Switch）。

另一张提供的图表揭示了Eridu方案的性能目标：

Eridu与当前技术在网络扩展性上的对比

图表显示，Eridu的首个行级交换系统，其单层网络域可支持超过5000个GPU/XPU，而两层网络则可扩展至超过100万个计算引擎。作为对比，当前技术受限于单层网络，通常只能支持72个GPU（未来路线图规划至256或576个），要扩展规模就必须引入多层脊交换机，从而增加延迟和复杂性。

Eridu宣称可实现10倍以上的扩展域，以支持大型前沿模型和MoE模型的训练。同时，能将交换机数量减少30倍，从而降低40%的资本支出（CapEx）和70%的网络功耗。

这场针对AI时代网络瓶颈的挑战已经拉开序幕。Eridu能否兑现其颠覆性的承诺，我们或许需要等到今年的Hot Chips等行业大会才能窥见更多细节。对于关注高性能计算与网络架构演进和AI基础设施发展的工程师与决策者而言，这无疑是一个值得持续关注的方向。如果你想了解更多深度技术解析与行业动态，欢迎访问云栈社区进行交流与探讨。

上一篇：256GB Socamm2服务器内存问世，三大厂商竞逐AI数据中心新战场
下一篇：周鸿祎解读OpenClaw：验证双线Scaling Law新路径，软件将迎原子化革命

AI训练, 交换机, 以太网, GPU集群, 超大规模数据中心

Eridu融资2亿美元研发高基数AI交换机，挑战英伟达NVSwitch网络瓶颈

相关帖子

浏览过的版块