本文深度复盘 Google TPU 智算集群的网络架构演进,重点剖析3D Torus拓扑与 OCS(光交换)技术的协同机制。从最小拓扑单元4x4x4 Cube出发,推演TPUv4 4096 Pod标准3D Torus环面与TPUv7 9216 Pod的Twisted 3D Torus环面组网拓扑背后的原理,随后对比TPUv5e/v6e的2D Torus Mesh性价比组网架构,揭示 Google 如何在万卡集群规模下实现确定性低延迟与极致 TCO(总拥有成本)优化。
基石:TPUv4与3D Torus/OCS 实现
4096卡的TPU集群TPUv4 Pod是Google OCS光交换网络架构成熟应用的标志性产品,接下来我们从最小单元模块出发推演至宏观的集群架构。
1. 最小拓扑单元:4×4×4 Cube(立方体)
Google TPUv4 Pod架构组网中的最小拓扑单元是TPU Cube(或 4×4×4 Cube),在逻辑上它是一个严密的整体:
- 单元组成:由 4 (X) × 4 (Y) × 4 (Z) 共 64 块 TPU 芯片构成,类似一个“四阶魔方”。
- 链路总数:每块 TPU 芯片引出 6 条 ICI (Inter-Chip Interconnect) 高速互联链路,分别对应三维坐标系的 ±X, ±Y, ±Z 六个方向,构建起 3D Torus 的基础网格。
2. 单个Cube链路分层与光电边界
在一个4×4×4 的标准Cube中,ICI 链路根据物理位置和传输介质被严格划分为两类:
- 内部互联(魔方内核):位于立方体内部的链路,通过极短的 PCB 背板与铜缆实现全电信号互联,不经过OCS交换机。
- 外部互联(魔方表面):仅有位于立方体六个外表面的链路会被引出,单个Cube合计对外引出 96 条光互联链路连接至OCS光交换机,从而实现Cube间的动态路由与超大规模扩展。

图1:TPUv4 4x4x4 Cube互联逻辑与光电接口分布

表1:TPUv4 444 Cube的96条光链路推算过程
3. TPUv4 Pod 集群48台OCS光交换机推演
TPUv4 Pod的最小拓扑单元为4x4x4 Cube(64颗芯片/Cube),构造4096卡的Pod需要64个Cube。每个Cube有96条光链路,总计需要 64 Cubes × 96 Links/Cube = 6144条光链路。
Google自研的Palomar OCS通常按 128 端口有效容量计算,因此所需的OCS数量为:6144 Links ÷ 128 Ports/OCS = 48 台 OCS。
这48台OCS被严格划分为三个正交组,分别承载X、Y、Z轴不同维度的流量。以X轴组为例,包含16台OCS,每一台仅负责连接所有Cube上±X 面的链路,构建X维度的环形闭环。这种物理正交隔离组网确保了光路在动态重构时始终维持三维空间的数学正交性,简化了上层软件路由算法并有效规避了网络死锁风险。
在3D Torus环网中,OCS 充当了巨大的动态配线架。离开一个节点X+ 接口的数据,通过OCS的光路调度,会物理直连到坐标相邻节点的 X- 接口,对于网格边缘的TPU,其接口通过OCS形成“首尾闭环”。

图2:TPUv7 64TPU的±X, ±Y, ±Z拓扑示意
4. TPUv4 Pod核心Palomar OCS微观构造
TPUv4 Pod组网的物理核心是Palomar OCS。它与传统网络交换机不同,不读取数据包头、不进行光电转化,仅是物理层面的“光线反射镜”。其内部光信号的传输路径呈经典的“W”形状,以最大限度减少插入损耗。

图 3:OCS W形光路原理示意
W形光路设计:光信号发送准直器 → 二向色分光镜 → 2D MEMS 阵列 I → 二向色分光镜 → 2D MEMS 阵列 II → 二向色分光镜 → 光信号接收准直器。
其中,两级2D MEMS设计实现了三维空间内的精准光束操纵,二向色分光镜作为核心滤光组件,与 Injection Module + Camera Module 联动实现实时带内运维监控和驱动2D MEMS的微秒级微调,这套闭环控制机制是Palomar OCS能够大规模商用的核心壁垒之一。
架构演进:Twisted 3D Torus和2D Torus
随着集群规模突破 9,216 卡,TPUv7 (Ironwood) 在架构上进行了两项重大升级:拓扑算法的扭曲与集群规模的极致扩张。
1. TPUv7 Twisted 3D Torus 拓扑和9216卡推演
TPUv7 Pod集群规模达到9216卡,其最小拓扑单元仍是4x4x4 Cube,因此需要9216/64 = 144个 Cubes。总光链路需求为:144 Cubes × 96 Links/Cube = 13,824 Ports。
据称Google仍采用48台OCS来承接,但将每台OCS的规格升级,并将连接带宽提升至 800G/1.6T,确保了超大规模集群下的无阻塞通信。
在拓扑结构上,TPUv7引入了步长(Step)的概念,构建了 Twisted 3D Torus (扭曲环面) 拓扑以降低通信跳数。最优扭曲步长 N 通常由维度大小决定。
- 左图标准2D Torus:传统架构(步长=1),数据流必须沿着物理邻居逐跳传递。
- 右图 Twisted 2D Torus:TPUv7架构(步长=N),光纤链路实现了“跳跃式互联”,OCS建立长距离光路,直接连接非物理相邻的节点,显著减少了跳数。

图 4:标准 2D Torus 与 Twisted 2D Torus 拓扑对比
将此原理扩展至三维,下图展示了 TPUv7 架构中128 TPU Slice的实际连接形态。以Z轴(绿线)为例,位于 Cube A 边界的一个节点并未回环至自身的起点,而是通过Twisted 3D Torus和OCS构建的“跳跃式链接”,直接连接至逻辑相邻的 Cube B 的起始节点上。

图 5:TPUv7 128TPU拓扑中的扭曲互联
2. TPUv5e/v6e 与 2D Torus Mesh
针对推理及中小规模训练场景,Google TPUv5e 与 TPUv6e (Trillium) 采用了追求极致性价比的精简架构。它移除了高成本的OCS光交换层,采用静态的2D Torus Mesh固定互联架构,单个Pod最大支持256个TPU。
其物理实现采用严格的介质分层设计:Y轴维度的垂直互联通过服务器内部PCB背板实现;X轴维度的跨机柜横向互联则通过机柜面板上的QSFP-DD DAC无源铜缆完成,最终利用长距离线缆将首尾机柜物理连接以闭合环路。

图 6:TPUv5e 液冷板与接口布局
行业格局深度对比与供应链验证
1. 行业壁垒:为何难以复制 Google 模式?
Google TPUv7 Pod真正的护城河在于构筑了从物理原子到应用生态的垂直整合闭环:
- 物理与硬件层面:自研高精度 MEMS 光开关及闭环控制系统涉及精密光学、机械工程与半导体工艺的深度交叉,构筑了“原子级”制造门槛。
- 软件与系统层面:3D Torus 的效能发挥高度依赖 Orion SDN 控制器与 XLA 编译器的深度协同,上层编译器能基于底层物理拓扑进行精确的算子放置与路由规划。
- 全栈生态层面:Google利用“训推一体TPU芯片 + PyTorch XLA/JAX原生编译器 + TensorFlow/JAX框架 + Gemini模型 + 十亿级应用入口”构建了不可复制的数据反馈闭环与正向飞轮。
2. 供应链:OCS 生态的全面产业化
Google OCS的大规模部署已得到产业链的全面验证,构建了稳固的生态系统:
- 核心元件:头部MEMS代工厂已攻克2D MEMS微镜阵列的高良率量产难题。
- 整机集成:主流厂商已具备192x192端口MEMS-OCS的交付能力,并积极推进下一代320x320端口超高密度OCS的研发。
- 光学控制:二向色分光镜等关键组件已实现供应链切入,补全了高精度闭环控制系统。
- 带宽基础:800G/1.6T高速光模块的成功量产,确立了TPUv7集群带宽升级的物理基础。
这种成熟的产业链生态让Google能够实践“硬件即服务 (HaaS)”的创新:将OCS确立为折旧期更长的长期基础设施资产,从而从系统层面优化长期TCO,这与追求极致资源利用率的云原生理念在成本优化层面有异曲同工之妙。
架构展望:迈向 CPO 与全光互联
随着单通道SerDes速率向448Gbps迈进,传统电气互连已逼近物理极限,CPO(共封装光学) 将成为突破I/O瓶颈的必然路径。
未来的TPU架构可能迈向“芯片出光、全光直连”的全新范式:光引擎通过异构集成直接封装于TPU基板之上,光信号从芯片封装直接引出,经由高密度光纤无缝对接新一代超高维度OCS光交换网络。在后摩尔时代,面向AGI的终极算力形态竞赛,将在追求通用性的开放生态与追求极致性能的垂直整合路径之间继续展开。