1) 先把两种“范式”讲清楚(用类比)
- GPU + CUDA 像“通用瑞士军刀 + 统一工具箱”:硬件足够通用,软件生态(CUDA)极强,适配面广、迭代快、外部开发者多。
- TPU(ASIC)+ 软件栈(XLA/JAX/Pathways/Runtime) 更像“深度定制的工业产线”:从芯片、板卡、互连网络到编译器、并行策略一起设计,目标是把某类工作(大规模训练/推理)做到极致,强调端到端吞吐、能效、可扩展性。TPU 的体系就是典型“芯片+网络+软件协同”的思路:XLA 编译器把计算图切分到多芯片,JAX/Pathways 把单个模型铺到成千上万颗 TPU 上跑,并且软硬件一起优化效率。
目前来看:TPU 的成功证明“垂直整合”确实能打穿 GPU 的优势区间,但它更像“分层替代”,而不是“一刀切把 GPU 全部替掉”。
2) 为什么说 TPU 的成功“不是偶然”,它击中了 GPU 的系统瓶颈
对大模型来说,真正决定“交付成本”的往往不是单卡峰值,而是系统级的有效吞吐(goodput)/扩展效率/能耗。TPU v4 的论文直接给了系统级证据:
- TPU v4 在相近规模系统下,比 Nvidia A100 快 1.2×–1.7×,且功耗更低(用电少 1.3×–1.9×),并且在 Google Cloud 的能效型数据中心里还体现为更低能耗与更低碳排。
这类“同规模系统、真实工作负载”的对比,比单芯片 spec 更能说明“范式差异”。
更关键的是 TPU v4 不是只改芯片,而是把“规模化训练最痛的地方”——互连和调度——也一起改了:
- TPU v4 引入 OCS(光电路交换),其思想是:把拓扑做成可重构,让网络能随任务切换,更像“可插拔配线架”。论文描述 OCS 让系统在规模、可用性、利用率、功耗、部署等方面显著受益。
- TPU v4 还明确对比了 NVLink/NVSwitch:NVSwitch 的电交换更像“固定结构的交换机级联”,而 OCS 是“光纤+镜子”,可以在4096 芯片尺度上做 1:1 的电路级重连,并且带来更高带宽潜力与更低功耗/成本压力。
而在“大模型”训练里,通信很容易变成主瓶颈(尤其是 all-reduce / all-to-all / all-gather)。Google 的材料里也直说:巨型模型通信开销显著,扩展需要一揽子优化,并且要尽可能做计算与通信重叠。
这就是 TPU 的“胜点”:它不是只靠算力,而是靠 “系统工程 + 软件栈” 把规模化训练/推理的瓶颈端到端优化掉,这一思路与专注于提供通用深度学习算力平台的思路形成了鲜明对比。
3) 那么:这会不会“系统性替代 GPU + CUDA”?
3.1 会替代的部分:在超大规模、成本敏感的“云侧主战场”,趋势更偏长期结构性
原因很直接:当你的规模上升到“上万/十万颗加速器”时,决定胜负的是集群级扩展。材料里提到 TPU 的网络/系统可以连接到10 万级芯片、~13Pbps 量级的双向带宽(Jupiter fabric)。
并且 TPU 还在往“多切片/多集群近线性扩展”方向推进(Multislice 连接多个 slice,把单任务扩展到成千上万乃至数万颗 TPU)。
这意味着:对超大云厂商(或极少数具备同等级系统工程能力的玩家),“垂直整合”不是阶段性策略,而是一种可持续的成本曲线优势——尤其在推理规模爆发后,能效和利用率会越来越硬核。
3.2 不会完全替代的部分:在通用市场(多样化负载/开发者生态)更像阶段性与长期并存
GPU + CUDA 的强项仍然是:
- 通用性:科研、图形、仿真、视频、各种不规则算子/新算子快速落地;
- 生态惯性:大量现成库、工程经验、人才供给。
而 TPU 体系的门槛在于:你需要把芯片 + 网络 + 编译器/并行策略 + 调度系统整套吃下来,才能吃到主要红利(这也是“产线式”方案的特征)。这就是为什么“垂直整合”更容易在大厂内部闭环先跑通,对于更广泛的算力需求方,GPU 的通用性依然是难以替代的优势。
4) 最终判断:它是“分层替代”,并且在云侧是结构性长期趋势
- 对超大规模云侧训练/推理主战场:垂直整合 ASIC + 软件栈是更偏“结构性长期趋势”。因为 TPU 展示了在同等规模下“更快+更省电”的系统级优势,并通过 OCS/集群网络/软件栈把扩展做到了 GPU 体系很难用同样方式解决的尺度。
- 对更广泛的通用计算与多样化 AI 负载:GPU + CUDA 仍将长期共存。GPU 像“通用平台”,TPU 像“专用产线”。未来更可能是:一线云厂商内部用垂直整合吃下成本曲线,而行业外部仍大量使用 GPU(以及把 TPU 当作云上的一种选择)。
5) 给半导体工程师的“看趋势抓手”
如果你要判断这是不是长期趋势,不要只盯 TOPS/TFLOPS,建议盯三件事:
- 集群 goodput(有效吞吐):能不能把峰值算力“变现”为训练/推理速度?(大模型通信开销是硬现实)
- 网络/拓扑的可塑性:固定拓扑 vs 可重构拓扑(OCS 这类东西的系统价值会越来越大)
- 编译器/并行系统能力:XLA/JAX/Pathways 这种软件栈是不是能持续把新模型映射到硬件上并保持高效率?
关于计算架构演进的更多深度讨论,欢迎关注 云栈社区 的技术专栏。
|