2026 年,专用集成电路(ASIC)的增长速度或将超越图形处理器(GPU),NVIDIA由此面临竞争压力。行业竞争的核心,已从芯片性能比拼,转向互联技术、交换机、软件及生态体系的全面较量。
2026 年 AI 加速器市场正处在关键转折期。根据数据,结合全球 AI 服务器整体出货量增速测算,2026 年各大云服务商(CSP)自研 ASIC 产品出货量预计同比增长44.6%,增速大幅领先 GPU 的16.1%。
然而,这并不意味着NVIDIA的行业主导地位会骤然瓦解。相反,行业竞争正从单一的 GPU 性能比拼,升级为涵盖高速互联技术与软件生态的更广、更复杂的全面角逐。NVIDIA依托纵向扩展(Scale-Up) 建立的黄金领先时代,正迈入由多重因素共同驱动的平台化发展新阶段。
面对 ASIC 阵营在成本与能效层面带来的激烈冲击,NVIDIA的应对策略已不再局限于单颗芯片的性能提升。近期一系列布局,均体现出深思熟虑的战略转型:
- NVIDIA推出 NVLink 融合技术:NVIDIA正式宣布,开放 NVLink 技术,允许客户将其集成至自研专用集成电路(ASIC)中。此举旨在打破自身封闭生态,将战略优势从硬件领域延伸至高速互联的软件层面。
- NVIDIA发布 Rubin CPX/VR200 NVL144 CPX 架构:这款全新架构专为大语言模型(LLM)推理场景打造,采用创新机架设计,Rubin CPX 芯片之间搭载 PCIe 6.0 互联方案。通过分离预填充与解码两大运算阶段,NVIDIA得以切入体量庞大、增速迅猛的中低端推理市场。
- NVIDIA与英特尔达成合作:双方合作将 NVLink 技术拓展适配至 x86 架构 CPU。此举进一步强化了NVIDIA在服务器互联领域的话语权,全面拓宽生态覆盖范围。
人工智能数据中心互联领域的竞争格局
多计算节点的融合互联,已成为决定人工智能性能的核心关键。当前 AI 行业龙头NVIDIA,以及由博通领衔的 ASIC 阵营,均已达成共识:数据中心互联技术是实现 AI 大规模扩容、跨节点协同协作与超算算力调度的核心基石。
互联技术过去仅作为配套辅助组件,如今已然成为左右行业竞争的决定性因素,促使两大阵营全力推进相关技术的研发与落地。
在 AI 基础设施体系中,依据带宽、延迟、接入节点数量及传输距离的不同需求,互联网络可划分为三大层级:
- 纵向扩展(Scale-Up):单一系统内的垂直扩容(例如:单机架、单个超级算力集群 SuperPOD)
- 横向扩容(Scale-Out):多系统之间的横向组网(例如:4 至 16 个超级算力集群组建大型集群)
- 跨域扩展(Scale-Across):跨数据中心级别的全域互联扩容
| 层级 |
纵向扩展(Scale-Up) |
横向扩展(Scale-Out) |
跨域扩展(Scale-Across) |
| 定义 |
单一系统内垂直扩容(机架 / 超级算力集群) |
多系统间横向组网扩容(集群) |
跨数据中心范围扩容 |
| 现有协议 |
NVLink、UALink、SUE、UB |
InfiniBand、以太网、UE |
以太网 |
| XPU 带宽 |
~ 8 Tbps |
400 / 800 Gbps |
~ 100 Gbps (E) |
| 时延要求 |
<1 μs |
10-100k |
<20 ms (E) |
| 节点数量 |
<10k |
500 m - 10 km |
1-10M |
| 传输距离 |
<500 m |
500 m - 10 km |
<40 km |
| 网络拓扑 |
Clos, 3D Torus, Dragonfly+ |
Clos, Dragonfly+ |
Clos, Dragonfly+ |
| 硬件方案 |
机架级部署,当前以铜缆为主,逐步向光互联演进 |
光互联 |
光互联 |
表 1. 人工智能数据中心:纵向扩展、横向扩展与跨域扩展对比
(E):表示估算值
网络拓扑与架构变革对交换芯片需求的影响
在网络架构中,计算节点之间的连接布局方式被称为网络拓扑。网络拓扑通常可分为层级式拓扑、直连式拓扑与混合拓扑三大类。主流常见拓扑包含克洛斯 Clos、环面 Torus、全网状拓扑 Fully Mesh,以及融合 Clos 与 Dragonfly 架构的增强型 Dragonfly+ 拓扑。
| 连接类型 |
层级式架构 |
直连式架构 |
混合架构 |
| 定义 |
采用多层级组网架构 |
计算节点之间直接互联 |
融合层级式与直连式两种组网方式 |
| 示例 |
Clos |
Torus、Full-Mesh、Dragonfly |
Dragonfly+ |
表2. 主流网络拓扑类型
网络拓扑的性能可通过六项核心指标进行评估:
- 性能表现
- 灵活度
- 模块化能力
- 可拆分性
- 成本效益
- 对称性
其中,属于层级式拓扑的 Clos 拓扑技术最为成熟,在六项指标中综合表现优异。该架构最早诞生于五十余年前,初衷是为构建无阻塞电话通信网络。如今,二层(2-Tier)Clos(叶脊 / Leaf-Spine)架构已大规模应用于数据中心。其可兼容多类网络协议与芯片,同样适用于NVIDIA超级算力集群(SuperPOD)之间的互联场景。该架构的主要短板在于,横向扩展能力不及直连式拓扑。
直连式拓扑中,环面拓扑 Torus 具备出色的对称性、模块化、成本效益与灵活性。由于无需部署交换设备,其整体建设成本不足 Clos 架构网络的 20%。谷歌当前的芯片间互联网络(ICI)便采用三维环面(3D Torus)架构。但环面拓扑 Torus 存在分区困难的短板。在扩容升级时,若仅调用拓扑中的部分节点,会造成性能大幅衰减。举例来说:单块 GPU 总带宽可达 7200Gbps,若直连另外七块 GPU,每条链路的平均带宽将降至约 1028Gbps。
全网状拓扑 Full-Mesh 在系统扩容过程中可保持网络直径恒定,相较环面拓扑 Torus 具备性能优势。但该架构同样存在分区困难、灵活性不足的问题。在实际应用中,特斯拉传输协议(TTP,Tesla Transport Protocol)便采用二维全网状架构。
蜻蜓拓扑 Dragonfly Topology 通过多交换机直连设计提升可扩展性,在扩容场景下,成本效益优于克洛斯架构。但其局部区域的传输性能不及 Clos 架构。
混合拓扑融合层级式与直连式架构的优势,可同时兼顾高性能与高扩展需求。NVIDIA的增强型蜻蜓拓扑(Dragonfly+),便是结合蜻蜓拓扑与克洛斯拓扑的混合架构。该架构在每个交换机组内部采用二层 2-Tier Clos 结构,强化组内通信能力,确保 GPU 两两之间的互联带宽不受 GPU 数量增减影响。在机组之间,则采用一维全网状 Dragonfly 拓扑,以此提升整体可扩展能力。
云服务商网络架构是否正转向混合拓扑?
过去,云服务商主要采用基于 Torus 拓扑或 Mesh 拓扑的纵向扩展网络,此类架构无需交换芯片。但随着接入超级算力集群的异构加速芯片(XPU)数量持续增长,云服务商亟需同步提升性能、可扩展性与成本效益。为达成上述目标,行业预计将逐步落地搭载交换芯片的混合拓扑架构。这一转型趋势,也将持续拉升交换芯片的市场需求。
举例而言,亚马逊云(AWS)曾在第二代训练芯片 Trainium 2 中,采用基于三维环面拓扑的 NeuronLink 3 互联技术;而其计划于 2025 年第四季度推出的新一代 Trainium 2.5 Teton PDS,将改用搭载交换芯片的混合拓扑方案,并且采用由阿斯特拉实验室(Astera Labs)基于 Scorpio-X 平台定制研发的专用芯片。
纵向扩展赛道竞争:NVIDIA的技术壁垒与挑战者
凭借 NVLink 互联技术,NVIDIA在纵向扩展(Scale-Up)市场构筑了绝对领先优势。其技术路线清晰明确:从 2014 年的 NVLink 1.0 迭代至 2024 年的 NVLink 5.0,单 GPU 双向总带宽从 160Gbps 大幅提升至 1800Gbps。
NVIDIA的 NVLink 交换芯片(NVSwitch)技术同步迭代演进,从最初支持 16 卡 GPU 全互联,升级至 NVL576 机架内 576 块 GPU 高速互联,让NVIDIA在技术指标上持续领先竞品约一年。
值得注意的是,NVIDIA的战略正从单纯的技术领先,转向全方位的生态壁垒防御:
- 技术规格稳步迭代:自 2014 年推出 NVLink 1.0 以来,NVIDIA约每两年更新一代技术,持续提升单 GPU 互联带宽与组网节点规模。
- 调制技术持续创新:从 NRZ 编码升级至 PAM4 调制,NVIDIA将传输速率提升一倍,体现其在底层物理层技术的长期持续投入。
- 产品架构多元布局:除经典的 DGX 系列外,GB200 NVL72、VR200 NVL144 CPX 等新品,提供更具针对性、灵活度更高的机架级解决方案。
(E):表示估算值
然而,这条技术护城河并非牢不可破。各大云服务商与芯片厂商正积极自研纵向扩展相关技术,以此降低对NVIDIA的依赖。AMD 的 UALink、博通的 SUE,以及亚马逊云、谷歌的自研专属方案,均旨在提供开放或封闭式的替代架构。
NVIDIA NVLink Fusion:开辟全新生态格局
NVIDIA推出的 NVLink Fusion 战略,是其对抗 ASIC 阵营的关键举措。通过将 NVLink 接口以输入输出知识产权(I/O IP)形式对外开放,NVIDIA允许客户将该技术集成至自研专用芯片(ASIC)或 CPU 当中。此举不仅能让客户享用 NVLink 的高速互联能力,还能有效将客户深度绑定至NVIDIA完整的软件生态体系。
这是一种典型的以小换大策略:NVIDIA适度让出部分硬件市场,换取对软件与生态更深层次的掌控。目前,富士通与高通已在自家 CPU 设计中接入 NVLink Fusion,印证了该战略的落地成效。
中国市场格局:本土纵向扩展龙头强势崛起
在人工智能算力竞赛中,国内已形成基本独立于NVIDIA生态的竞争格局。除各大云服务商自研专用加速芯片(ASIC)外,以华为为代表的本土科技巨头,正持续搭建自主的纵向扩展技术生态,直接挑战NVIDIA的市场垄断地位。
目前,国内主流自研纵向扩展技术标准如下:
- 华为统一总线技术(UB):业界领先的私有闭环方案,目前正逐步走向开放化。
- 阿里主导的 ALS(Alink System):由阿里云与 AMD 联合推动的开放式联盟标准。
- 腾讯主导的 ETH-X:专注于以太网性能优化的开放互联标准。
华为 UB 技术实力与市场布局
华为 UB 统一总线协议,是目前国内市场技术最成熟、落地规模最大的纵向扩展互联方案。2025 年,华为推出基于 UB 1.0 的昇腾 900 A3 超级算力集群,具备超大组网规模与超高互联传输效率。
该系统可实现 384 颗昇腾 910C NPU 之间的高速互联,单颗芯片互联带宽最高可达 400Gbps。其中,其搭载的 CloudMatrix384 架构采用二维全网状混合设计,可在单板、单机架层级实现高密度无损互联,而非简单的链路堆叠组网。
从战略层面来看,华为计划于 2026 年推出 Atlas 950 超级算力集群,该产品将搭载新一代 UB 2.0 协议,目标实现8192 颗 NPU 的超大规模互联组网。这一规模不仅远超当前行业主流部署方案,也彰显了华为在超大模型训练市场的宏大布局与野心。
与此同时,华为宣布 UB 2.0 将向外部合作伙伴开放。此举思路与NVIDIA的 NVLink Fusion 战略高度相似,意在推动自有技术成为行业标准,并将生态影响力拓展至更多异构加速芯片(XPU)领域。
中国开放标准推动纵向扩展市场发展
除华为从封闭策略逐步转向开放之外,国内正积极打造多项开放技术标准,降低对单一厂商的依赖。
ALS 标准:由阿里巴巴与 AMD 联合牵头,联盟成员超十家,包含博通、英特尔等企业。核心理念与 AMD UALink 协议相近,旨在通过开放联盟模式,促进纵向扩展领域的多元化竞争。
ETH-X 标准:由腾讯主导,拥有三十余家成员单位。该标准聚焦以太网架构优化,依托 RoCE 技术提升互联带宽。与 ALS 不同,ETH-X 通过优化传输编码进一步提升传输效率。该方案虽可支撑超高带宽,却会增加计算开销与网络时延。整体技术路线与博通 SUE(纵向扩展以太网)协议相近。
从性能到生态:AI 芯片的终极竞技场
全球 AI 加速器的竞争已然呈现明确趋势:单一硬件性能不再是决胜的唯一关键。
NVIDIA近期推出 NVLink Fusion,允许客户将 NVLink 集成至自研 ASIC 芯片中。与此同时,华为宣布将向业界全面开放 UB 2.0 协议。一系列动作标志着行业战略的重大转变:头部 AI 芯片厂商的竞争赛道,已从单纯的硬件参数比拼,升级为更深层的软件与生态博弈。
NVIDIA深知,尽管其 GPU 仍垄断高端大模型训练市场,但想要长期守住领先地位,就必须依靠无可替代的 CUDA 生态,将客户深度绑定至自身架构体系。这种战略取舍,以适度让出硬件市场控制权为代价,换取在软件与工具链层面的全域主导优势。
与此同时,以博通为代表的 ASIC 阵营正在大力推行开放标准,为各大云服务商提供单一厂商之外的多元化备选方案。华为、阿里等国内科技巨头也在全力搭建自主可控的本土生态,意图复刻NVIDIA的成功路径。
未来的行业领头羊,必将是能够提供最完整、易用性更强的软硬件一体化方案的企业。在全新竞争格局下,胜负不再取决于单颗芯片的极限性能,而是由生态的覆盖广度、技术深度与用户粘性共同决定。若想深入探讨 AI 芯片与互联技术等前沿话题,不妨前往 云栈社区 与更多技术同行交流,碰撞思想的火花。