云栈社区»论坛 › 站务中心「 Forum Service 」 › 2026年ASIC增速将超GPU？NVIDIA纵向扩展与互联技术深度解析 ...

发回帖发新帖

4638 积分	0 好友	603 主题

发消息

2026年ASIC增速将超GPU？NVIDIA纵向扩展与互联技术深度解析

发表于 4 小时前 | 查看: 10| 回复: 0

2026 年，专用集成电路（ASIC）的增长速度或将超越图形处理器（GPU），NVIDIA由此面临竞争压力。行业竞争的核心，已从芯片性能比拼，转向互联技术、交换机、软件及生态体系的全面较量。

2026 年 AI 加速器市场正处在关键转折期。根据数据，结合全球 AI 服务器整体出货量增速测算，2026 年各大云服务商（CSP）自研 ASIC 产品出货量预计同比增长44.6%，增速大幅领先 GPU 的16.1%。

然而，这并不意味着NVIDIA的行业主导地位会骤然瓦解。相反，行业竞争正从单一的 GPU 性能比拼，升级为涵盖高速互联技术与软件生态的更广、更复杂的全面角逐。NVIDIA依托纵向扩展（Scale-Up） 建立的黄金领先时代，正迈入由多重因素共同驱动的平台化发展新阶段。

面对 ASIC 阵营在成本与能效层面带来的激烈冲击，NVIDIA的应对策略已不再局限于单颗芯片的性能提升。近期一系列布局，均体现出深思熟虑的战略转型：

NVIDIA推出 NVLink 融合技术：NVIDIA正式宣布，开放 NVLink 技术，允许客户将其集成至自研专用集成电路（ASIC）中。此举旨在打破自身封闭生态，将战略优势从硬件领域延伸至高速互联的软件层面。
NVIDIA发布 Rubin CPX/VR200 NVL144 CPX 架构：这款全新架构专为大语言模型（LLM）推理场景打造，采用创新机架设计，Rubin CPX 芯片之间搭载 PCIe 6.0 互联方案。通过分离预填充与解码两大运算阶段，NVIDIA得以切入体量庞大、增速迅猛的中低端推理市场。
NVIDIA与英特尔达成合作：双方合作将 NVLink 技术拓展适配至 x86 架构 CPU。此举进一步强化了NVIDIA在服务器互联领域的话语权，全面拓宽生态覆盖范围。

人工智能数据中心互联领域的竞争格局

多计算节点的融合互联，已成为决定人工智能性能的核心关键。当前 AI 行业龙头NVIDIA，以及由博通领衔的 ASIC 阵营，均已达成共识：数据中心互联技术是实现 AI 大规模扩容、跨节点协同协作与超算算力调度的核心基石。

互联技术过去仅作为配套辅助组件，如今已然成为左右行业竞争的决定性因素，促使两大阵营全力推进相关技术的研发与落地。

在 AI 基础设施体系中，依据带宽、延迟、接入节点数量及传输距离的不同需求，互联网络可划分为三大层级：

纵向扩展（Scale-Up）：单一系统内的垂直扩容（例如：单机架、单个超级算力集群 SuperPOD）
横向扩容（Scale-Out）：多系统之间的横向组网（例如：4 至 16 个超级算力集群组建大型集群）
跨域扩展（Scale-Across）：跨数据中心级别的全域互联扩容

层级	纵向扩展（Scale-Up）	横向扩展（Scale-Out）	跨域扩展（Scale-Across）
定义	单一系统内垂直扩容（机架 / 超级算力集群）	多系统间横向组网扩容（集群）	跨数据中心范围扩容
现有协议	NVLink、UALink、SUE、UB	InfiniBand、以太网、UE	以太网
XPU 带宽	~ 8 Tbps	400 / 800 Gbps	~ 100 Gbps (E)
时延要求	<1 μs	10-100k	<20 ms (E)
节点数量	<10k	500 m - 10 km	1-10M
传输距离	<500 m	500 m - 10 km	<40 km
网络拓扑	Clos, 3D Torus, Dragonfly+	Clos, Dragonfly+	Clos, Dragonfly+
硬件方案	机架级部署，当前以铜缆为主，逐步向光互联演进	光互联	光互联

表 1. 人工智能数据中心：纵向扩展、横向扩展与跨域扩展对比
(E)：表示估算值

网络拓扑与架构变革对交换芯片需求的影响

在网络架构中，计算节点之间的连接布局方式被称为网络拓扑。网络拓扑通常可分为层级式拓扑、直连式拓扑与混合拓扑三大类。主流常见拓扑包含克洛斯 Clos、环面 Torus、全网状拓扑 Fully Mesh，以及融合 Clos 与 Dragonfly 架构的增强型 Dragonfly+ 拓扑。

连接类型	层级式架构	直连式架构	混合架构
定义	采用多层级组网架构	计算节点之间直接互联	融合层级式与直连式两种组网方式
示例	Clos	Torus、Full-Mesh、Dragonfly	Dragonfly+

表2. 主流网络拓扑类型

网络拓扑的性能可通过六项核心指标进行评估：

性能表现
灵活度
模块化能力
可拆分性
成本效益
对称性

其中，属于层级式拓扑的 Clos 拓扑技术最为成熟，在六项指标中综合表现优异。该架构最早诞生于五十余年前，初衷是为构建无阻塞电话通信网络。如今，二层（2-Tier）Clos（叶脊 / Leaf-Spine）架构已大规模应用于数据中心。其可兼容多类网络协议与芯片，同样适用于NVIDIA超级算力集群（SuperPOD）之间的互联场景。该架构的主要短板在于，横向扩展能力不及直连式拓扑。

直连式拓扑中，环面拓扑 Torus 具备出色的对称性、模块化、成本效益与灵活性。由于无需部署交换设备，其整体建设成本不足 Clos 架构网络的 20%。谷歌当前的芯片间互联网络（ICI）便采用三维环面（3D Torus）架构。但环面拓扑 Torus 存在分区困难的短板。在扩容升级时，若仅调用拓扑中的部分节点，会造成性能大幅衰减。举例来说：单块 GPU 总带宽可达 7200Gbps，若直连另外七块 GPU，每条链路的平均带宽将降至约 1028Gbps。

全网状拓扑 Full-Mesh 在系统扩容过程中可保持网络直径恒定，相较环面拓扑 Torus 具备性能优势。但该架构同样存在分区困难、灵活性不足的问题。在实际应用中，特斯拉传输协议（TTP，Tesla Transport Protocol）便采用二维全网状架构。

蜻蜓拓扑 Dragonfly Topology 通过多交换机直连设计提升可扩展性，在扩容场景下，成本效益优于克洛斯架构。但其局部区域的传输性能不及 Clos 架构。

混合拓扑融合层级式与直连式架构的优势，可同时兼顾高性能与高扩展需求。NVIDIA的增强型蜻蜓拓扑（Dragonfly+），便是结合蜻蜓拓扑与克洛斯拓扑的混合架构。该架构在每个交换机组内部采用二层 2-Tier Clos 结构，强化组内通信能力，确保 GPU 两两之间的互联带宽不受 GPU 数量增减影响。在机组之间，则采用一维全网状 Dragonfly 拓扑，以此提升整体可扩展能力。

云服务商网络架构是否正转向混合拓扑？

过去，云服务商主要采用基于 Torus 拓扑或 Mesh 拓扑的纵向扩展网络，此类架构无需交换芯片。但随着接入超级算力集群的异构加速芯片（XPU）数量持续增长，云服务商亟需同步提升性能、可扩展性与成本效益。为达成上述目标，行业预计将逐步落地搭载交换芯片的混合拓扑架构。这一转型趋势，也将持续拉升交换芯片的市场需求。

举例而言，亚马逊云（AWS）曾在第二代训练芯片 Trainium 2 中，采用基于三维环面拓扑的 NeuronLink 3 互联技术；而其计划于 2025 年第四季度推出的新一代 Trainium 2.5 Teton PDS，将改用搭载交换芯片的混合拓扑方案，并且采用由阿斯特拉实验室（Astera Labs）基于 Scorpio-X 平台定制研发的专用芯片。

纵向扩展赛道竞争：NVIDIA的技术壁垒与挑战者

凭借 NVLink 互联技术，NVIDIA在纵向扩展（Scale-Up）市场构筑了绝对领先优势。其技术路线清晰明确：从 2014 年的 NVLink 1.0 迭代至 2024 年的 NVLink 5.0，单 GPU 双向总带宽从 160Gbps 大幅提升至 1800Gbps。

NVIDIA的 NVLink 交换芯片（NVSwitch）技术同步迭代演进，从最初支持 16 卡 GPU 全互联，升级至 NVL576 机架内 576 块 GPU 高速互联，让NVIDIA在技术指标上持续领先竞品约一年。

值得注意的是，NVIDIA的战略正从单纯的技术领先，转向全方位的生态壁垒防御：

技术规格稳步迭代：自 2014 年推出 NVLink 1.0 以来，NVIDIA约每两年更新一代技术，持续提升单 GPU 互联带宽与组网节点规模。
调制技术持续创新：从 NRZ 编码升级至 PAM4 调制，NVIDIA将传输速率提升一倍，体现其在底层物理层技术的长期持续投入。
产品架构多元布局：除经典的 DGX 系列外，GB200 NVL72、VR200 NVL144 CPX 等新品，提供更具针对性、灵活度更高的机架级解决方案。

(E)：表示估算值

然而，这条技术护城河并非牢不可破。各大云服务商与芯片厂商正积极自研纵向扩展相关技术，以此降低对NVIDIA的依赖。AMD 的 UALink、博通的 SUE，以及亚马逊云、谷歌的自研专属方案，均旨在提供开放或封闭式的替代架构。

NVIDIA NVLink Fusion：开辟全新生态格局

NVIDIA推出的 NVLink Fusion 战略，是其对抗 ASIC 阵营的关键举措。通过将 NVLink 接口以输入输出知识产权（I/O IP）形式对外开放，NVIDIA允许客户将该技术集成至自研专用芯片（ASIC）或 CPU 当中。此举不仅能让客户享用 NVLink 的高速互联能力，还能有效将客户深度绑定至NVIDIA完整的软件生态体系。

这是一种典型的以小换大策略：NVIDIA适度让出部分硬件市场，换取对软件与生态更深层次的掌控。目前，富士通与高通已在自家 CPU 设计中接入 NVLink Fusion，印证了该战略的落地成效。

中国市场格局：本土纵向扩展龙头强势崛起

在人工智能算力竞赛中，国内已形成基本独立于NVIDIA生态的竞争格局。除各大云服务商自研专用加速芯片（ASIC）外，以华为为代表的本土科技巨头，正持续搭建自主的纵向扩展技术生态，直接挑战NVIDIA的市场垄断地位。

目前，国内主流自研纵向扩展技术标准如下：

华为统一总线技术（UB）：业界领先的私有闭环方案，目前正逐步走向开放化。
阿里主导的 ALS（Alink System）：由阿里云与 AMD 联合推动的开放式联盟标准。
腾讯主导的 ETH-X：专注于以太网性能优化的开放互联标准。

华为 UB 技术实力与市场布局

华为 UB 统一总线协议，是目前国内市场技术最成熟、落地规模最大的纵向扩展互联方案。2025 年，华为推出基于 UB 1.0 的昇腾 900 A3 超级算力集群，具备超大组网规模与超高互联传输效率。

该系统可实现 384 颗昇腾 910C NPU 之间的高速互联，单颗芯片互联带宽最高可达 400Gbps。其中，其搭载的 CloudMatrix384 架构采用二维全网状混合设计，可在单板、单机架层级实现高密度无损互联，而非简单的链路堆叠组网。

从战略层面来看，华为计划于 2026 年推出 Atlas 950 超级算力集群，该产品将搭载新一代 UB 2.0 协议，目标实现8192 颗 NPU 的超大规模互联组网。这一规模不仅远超当前行业主流部署方案，也彰显了华为在超大模型训练市场的宏大布局与野心。

与此同时，华为宣布 UB 2.0 将向外部合作伙伴开放。此举思路与NVIDIA的 NVLink Fusion 战略高度相似，意在推动自有技术成为行业标准，并将生态影响力拓展至更多异构加速芯片（XPU）领域。

中国开放标准推动纵向扩展市场发展

除华为从封闭策略逐步转向开放之外，国内正积极打造多项开放技术标准，降低对单一厂商的依赖。

ALS 标准：由阿里巴巴与 AMD 联合牵头，联盟成员超十家，包含博通、英特尔等企业。核心理念与 AMD UALink 协议相近，旨在通过开放联盟模式，促进纵向扩展领域的多元化竞争。

ETH-X 标准：由腾讯主导，拥有三十余家成员单位。该标准聚焦以太网架构优化，依托 RoCE 技术提升互联带宽。与 ALS 不同，ETH-X 通过优化传输编码进一步提升传输效率。该方案虽可支撑超高带宽，却会增加计算开销与网络时延。整体技术路线与博通 SUE（纵向扩展以太网）协议相近。

从性能到生态：AI 芯片的终极竞技场

全球 AI 加速器的竞争已然呈现明确趋势：单一硬件性能不再是决胜的唯一关键。

NVIDIA近期推出 NVLink Fusion，允许客户将 NVLink 集成至自研 ASIC 芯片中。与此同时，华为宣布将向业界全面开放 UB 2.0 协议。一系列动作标志着行业战略的重大转变：头部 AI 芯片厂商的竞争赛道，已从单纯的硬件参数比拼，升级为更深层的软件与生态博弈。

NVIDIA深知，尽管其 GPU 仍垄断高端大模型训练市场，但想要长期守住领先地位，就必须依靠无可替代的 CUDA 生态，将客户深度绑定至自身架构体系。这种战略取舍，以适度让出硬件市场控制权为代价，换取在软件与工具链层面的全域主导优势。

与此同时，以博通为代表的 ASIC 阵营正在大力推行开放标准，为各大云服务商提供单一厂商之外的多元化备选方案。华为、阿里等国内科技巨头也在全力搭建自主可控的本土生态，意图复刻NVIDIA的成功路径。

未来的行业领头羊，必将是能够提供最完整、易用性更强的软硬件一体化方案的企业。在全新竞争格局下，胜负不再取决于单颗芯片的极限性能，而是由生态的覆盖广度、技术深度与用户粘性共同决定。若想深入探讨 AI 芯片与互联技术等前沿话题，不妨前往 云栈社区 与更多技术同行交流，碰撞思想的火花。

上一篇：undoredo：基于增量记录的 Rust 撤销重做库，让你的数据结构拥有“后悔药”
下一篇：为什么新电脑无法安装 Win7？打补丁也难成功，BIOS 到 UEFI 的变革是根源

NVIDIA, GPU, ASIC, 纵向扩展, NVLink