3788 积分	0 好友	502 主题

谷歌AI超算全栈架构深度解析：从财报看硬件软件整合如何提升效率

发表于 2026-2-11 20:20:18 | 查看: 202| 回复: 0

在之前的分析基础上，本文将深入探讨谷歌最新的AI Hypercomputer（AI超级计算机）是如何实现硬件与软件的全栈整合的。

谷歌的 AI超级计算机 并不是一个简单的硬件堆叠，而是一个全栈系统架构。它的核心逻辑是：“将数据中心视为一台计算机”。

在2025年的财报和技术白皮书中，谷歌强调了这种“系统级”整合如何帮助其在保持高性能的同时，大幅降低运行万亿参数模型（如Gemini）的单位成本。以下是其硬件与软件整合的四个关键层级：

AI Hypercomputer允许在同一套系统内混合使用 TPU 和 NVIDIA GPU。

液冷技术（Liquid Cooling）： 随着Trillium (TPU v6)和NVIDIA Blackwell的部署，能耗极高。谷歌通过在数据中心大规模部署液冷基础设施，将芯片产生的热量直接通过水循环排走，这使得芯片可以长时间满频率运行而不降频。
自研高性能存储（Hyperdisk）： AI训练需要极快的数据吞吐。Hyperdisk允许动态分配存储吞吐量，确保芯片在训练时不会因为“等数据”而闲置。

这是谷歌区别于所有友商的“杀手锏”。

OCS (Optical Circuit Switching)： 传统的超级计算机使用电信号交换机，成本高且延迟大。谷歌自研了光交换机，通过微小的镜片反射光束来建立连接。
动态拓扑： 软件可以实时更改芯片之间的连接方式（拓扑结构）。如果你今天训练一个超大模型，OCS可以把几万颗TPU连成一个巨大的环形；明天如果你做小模型推理，它可以秒级切换成数千个独立的小集群。这种灵活性极大地提高了设备利用率。

谷歌通过自研的系统软件，让开发者感觉是在一台巨大的电脑上编程，而不是在几万台服务器上分发任务：

Dynamic Workload Scheduler： 这是大脑。它会根据任务优先级自动分配资源。例如，它能预测哪部分计算最费钱，并自动将其调度到能效比更高的TPU上运行。
Multislice训练技术： 传统的训练受限于单个机架，而Multislice允许模型跨越数个物理集群进行无缝训练。这意味着谷歌可以训练比对手大10倍的模型，而不会因为网络延迟导致训练中断。

硬件再强，如果没有好的翻译官（编译器）也是徒劳。

XLA (Accelerated Linear Algebra)： 这是一个专门为张量运算设计的编译器。它可以扫描AI代码，并将其转化为最适合TPU或GPU执行的机器语言。
全栈优化： 谷歌的软件工程师在开发Gemini时，会直接向硬件工程师反馈：“我们需要一种新的数据格式（如FP4）来加速推理”。硬件团队随后会在下一代TPU（如Ironwood）中直接加入这个指令集。这种软硬件协同进化（Co-design） 是微软或亚马逊短期内难以企及的。

对于投资者来说，AI Hypercomputer的真正价值在于 “效率带来的毛利率提升”。

避开英伟达税： 通过整合自研的OCS互联和TPU，谷歌在提供相同AI算力时，资本支出（CapEx）的效率远高于完全依赖英伟达的友商。
云业务的护城河： 谷歌云不再只是卖CPU空间，而是卖这套“AI超级计算机系统”。由于这套系统高度复杂（涉及光物理、液冷基础设施、编译器底层），竞争对手很难通过简单的购买硬件来复制这种性能。

正如财报所反映的，Google Cloud的利润率从去年同期的17%跃升至今年的近24%，很大程度上归功于这种全栈整合带来的运营效率提升。

对于技术社区如云栈社区，这类深度整合案例提供了宝贵的架构参考和讨论素材。