日前,一家名为Upscale AI的芯片初创公司宣布,已完成2亿美元的A轮融资,旨在挑战英伟达在机架级AI系统交换机领域的统治地位,并与思科、博通和AMD等巨头展开竞争。
据该公司介绍,本轮融资由Tiger Global、Premji Invest和Xora Innovation领投,Maverick Silicon、StepStone Group、Mayfield、Prosperity7 Ventures、Intel Capital和Qualcomm Ventures参投。此次融资使Upscale AI的总融资额超过3亿美元。投资者的迅速涌入反映了一个行业共识:网络正成为AI计算扩展的关键瓶颈,而为连接通用计算和存储设计的传统网络架构,已难以适应AI时代的需求。
关键的区别在于:传统网络连接的是终端节点,而AI网络则需要统一协调整个集群。随着专用AI计算规模的不断扩大,其性能正越来越多地受到传统或专有网络架构的限制。传统的数据中心网络解决方案并非为机架级规模所需的大规模、高度同步的扩展而设计。
一个旨在撼动英伟达护城河的团队
众所周知英伟达的GPU实力强劲,但其在网络方面的表现同样不容小觑。受AI数据中心连接需求驱动,英伟达2026财年第三季度的网络业务收入同比暴涨162%,达到81.9亿美元,这笔收入早已远超其当年收购Mellanox的耗费。NVLink无疑是英伟达坚固的护城河。
考虑到当前单芯片性能提升乏力,Scale Up(纵向扩展)和Scale Out(横向扩展)的连接需求在未来很长一段时间内将成为主流。换言之,任何能够制造出高基数(端口数量多)、端口间总带宽高,足以媲美英伟达NVSwitch和NVLink的UALink交换机的公司,都将获得巨大机遇。
Upscale AI正是为此理想而创立。其创始人Rajiv Khemani是业内知名的连续芯片创业专家。他曾担任Sun Microsystems高级产品经理,负责Sparc服务器和Solaris操作系统,后又在NetApp和英特尔负责战略与市场营销。2003年,他出任芯片初创公司Cavium Networks的首席运营官。Cavium最初以MIPS处理器起家,后凭借ThunderX服务器CPU进军Arm服务器市场,并于2017年被Marvell以60亿美元收购。
Khemani于2015年离开Cavium,成为Innovium的联合创始人兼首席执行官。Innovium专注于设计高带宽、极简主义的超大规模以太网交换机ASIC(TeraLynx),并于2021年被Marvell以11亿美元收购。2022年2月,Rajiv Khemani和Barun Kar共同创立Auradine,研发AI和区块链计算及网络芯片。2024年5月,两人决定将Auradine的网络业务剥离,成立Upscale AI,以更专注地开拓预计到2030年将达到1000亿美元的AI互连市场。
另一位联合创始人Barun Kar曾是Palo Alto Networks的工程高级副总裁兼创始团队成员,更早之前则在Juniper Networks负责以太网路由器和交换机产品。
Upscale AI的策略是将GPU、AI加速器、内存、存储和网络整合到一个单一的同步AI引擎中。其核心解决方案SkyHammer通过缩短加速器、内存和存储之间的距离,实现统一机架,并将整个堆栈转换为一个统一的同步系统。
该公司的AI平台基于并积极推动开放标准和开源技术,包括ESUN、Ultra Accelerator Link (UAL)、Ultra Ethernet (UEC)、SONiC和交换机抽象接口 (SAI)。凭借新增的2亿美元融资,Upscale AI计划推出首个涵盖芯片、系统和软件的全栈式交钥匙平台,旨在连接未来通用人工智能(AGI)所需的异构系统。
一款专为网络而优化的芯片
典型的AI集群由多个机架组成,每个机架容纳数十台服务器,这些服务器通过机架内交换机进行数据交换。机架交换机的技术特性与用于连接不同机架的设备有显著差异。
Upscale AI正在开发的SkyHammer芯片,正是一款专为纵向扩展网络(连接机架内部组件)而优化的产品,能提供确定性延迟。这意味着可以高精度预测数据在机架内传输所需的时间。对于必须按特定顺序执行的AI模型计算而言,可预测的网络延迟能避免意外等待,防止整个工作负载减速。
Upscale AI阐述其目标时表示,目前规模化AI网络切实可行的选择几乎只有NVSwitch,而他们希望为客户提供更多选择。“我一直坚信异构计算和异构网络是未来,”公司高管表示,“人们应有自由选择权,灵活组合各种资源以优化自身需求。”他们认为,随着AI创新加速,没有任何一家公司能提供所需的全部技术,未来必然是不同供应商提供不同类型的计算解决方案。
Upscale AI指出,当少量CPU与GPU紧密通信时,PCI-Express交换机制工作良好。但未来,单个GPU可能无法完成所有任务,异构计算将成为主流。“交换已成为连接所有功能的核心,它必须确保连接的公平性、可扩展性和极高的可靠性,因为任何操作都可能影响系统中的所有计算。”
在采访中,Upscale AI对那些通过改造PCI-Express或以太网交换机ASIC来制造UALink、ESUN交换机的做法表示不屑。“那无法为客户提供真正优化的、仅能向上扩展的堆栈。每个ASIC都有其不变的DNA。”因此,Khemani和Kar决定从头开始,专门为内存结构构建一款ASIC。
SkyHammer将生成实时遥测数据,这对于系统故障排除和性能优化至关重要。同时,它兼容多种开源网络技术,包括UALink和较新的ESUN标准(后者获英伟达、博通等支持)。此外,它还支持专注于连接不同机架的UEC技术,可为多达百万芯片的AI集群提供支持。
写在最后
NVLink是英伟达的高速互连技术,能将多个GPU的资源抽象为单一逻辑资源。自其问世以来,AMD和思科等公司一直在尝试开发替代方案,如UALink和ESUN,但尚未成熟。AMD首批基于UALink的机架系统将于今年晚些时候上市,但它们通过以太网隧道传输协议。能够直接与NVSwitch竞争的专用UALink交换机尚未出现,Upscale AI的目标正是通过SkyHammer定制ASIC改变这一现状。
Upscale AI首席执行官Barun Kar表示:“我们不是在改造传统系统,而是在重新构想AI网络中规模的真正含义。这种架构的核心是为了扩展规模,专为AI工作负载设计。”该芯片采用基于内存语义的加载-存储网络架构,并具备类似Nvidia Sharp的集体通信加速功能。为使系统能够大规模管理,Upscale正致力于扩展对开源网络操作系统SONiC的支持。
目前,Upscale专注于纵向扩展网络产品,但长期计划将产品线扩展至横向扩展交换机。Kar透露,公司已与超大规模数据中心运营商和GPU供应商建立合作关系,完成了架构验证。本轮融资的重点是将创新转化为实际部署。
执行董事长Rajiv Khemani称:“Upscale AI在极短时间内取得了非凡发展势头。市场需要开放、可扩展的AI网络解决方案,而我们能帮助客户突破当前网络限制。”
这场围绕AI时代核心网络架构的竞赛已经拉开序幕,Upscale AI的入局,或许将为行业带来新的变数与选择。关于AI硬件生态的更多深度讨论,欢迎在云栈社区继续交流。