面对谷歌TPU的持续攻势,英伟达的市场地位正面临前所未有的挑战。
当前最前沿的模型,如谷歌的Gemini 3和Anthropic的Claude 4.5 Opus,其训练并非依赖英伟达硬件,而是运行在谷歌最新的Ironwood架构TPUv7上。TPU的实际成果有目共睹:Gemini 3作为全球顶级模型之一,完全在TPU集群上完成训练。甚至连OpenAI的Sam Altman也公开承认,谷歌Gemini的强劲表现让OpenAI感到了压力。
这一切都表明,在人工智能训练这一核心领域,一种具有强大竞争力的GPU替代方案已经成熟。英伟达迅速发布了一份声明,试图稳定市场情绪,强调自身在性能与生态上的领先地位,其紧张心态不言而喻。
近期,谷歌在TPU战线上取得了一系列关键进展:
- TPU产能预期大幅上调。
- 获得了Anthropic超过1GW的TPU采购订单。
- Gemini 3与Claude 4.5 Opus在TPU上实现了业界领先的性能(SOTA)。
- 客户名单快速扩张,Meta、Stability AI、xAI乃至OpenAI都成为其目标或潜在客户。
一个核心问题是:在英伟达Blackwell GPU尚未全面普及、其帝国看似坚不可摧的背景下,TPU为何突然具备了挑战王座的实力?英伟达的统治时代会因此终结吗?
谷歌TPU的演进:从内部工具到商业产品
谷歌为专用AI芯片布局已久。早在2006年,谷歌就已开始构思专用的AI基础设施。转折点发生在2013年,谷歌意识到若想大规模部署AI,需要将数据中心数量翻倍,这催生了TPU芯片的研发,并于2016年投入生产。
长期以来,TPU软件栈主要用于支持谷歌内部工作负载,对外仅通过Google Cloud Platform(GCP)以租赁形式提供。真正的商业转折始于谷歌与Anthropic达成的战略协议。今年10月,双方正式确认了这项合作。据分析,Anthropic的需求涉及约100万颗TPU芯片,其分配结构如下:
- 约40万颗芯片通过谷歌的硬件合作伙伴博通(Broadcom)直接销售给Anthropic。
- 剩余的60万颗芯片则通过GCP以租赁形式提供。
这项合作为谷歌带来了可观的利润。此外,Meta也是TPU的重要客户。值得注意的是,即便是竞争对手OpenAI,也有计划租赁谷歌TPU以降低推理成本。分析师指出,仅仅是“存在可行的TPU替代方案”这一事实,就已帮助OpenAI在采购英伟达GPU时获得了大约30%的折扣。因此业内出现了一种有趣的说法:“你购买的TPU越多,你在英伟达GPU上节省的支出就越多。”
为何选择TPU?核心在于总拥有成本(TCO)
从纸面规格看,TPUv7 “Ironwood”的理论算力(FLOPs)和内存带宽已接近英伟达最新的Blackwell GPU。但其真正的竞争优势在于极低的总拥有成本。
根据行业分析:
- 谷歌内部使用TPU的每芯片TCO,比同级别的GB200系统低约44%。
- 对于像Anthropic这样的外部客户(需支付谷歌利润),其每单位有效算力的成本仍比英伟达系统低30%-50%。
TPU的架构还带来了天然的扩展性优势:谷歌的系统能将9,216颗芯片联成一个高密度的训练域;而传统的英伟达系统通常只能将64至72颗芯片进行紧密互联。这使得TPU在大规模AI训练任务上更具优势。
另一个关键因素是Anthropic团队强大的工程能力,其成员包括前谷歌编译器专家,他们既熟悉TPU软件栈,又精通自身模型架构,能够通过定制内核来提升TPU的利用效率,从而实现更高的模型FLOP利用率。
综合更低的TCO和更高的有效算力,TPU的经济优势显著。分析指出,其盈亏平衡点仅需约15%的MFU,而竞争平台则需要约30%。这意味着,即便仅实现竞争对手一半的有效算力,TPU也能在成本上打平。凭借顶尖的工程优化,Anthropic在TPU上的MFU潜力有望达到40%以上,从而将每单位有效训练FLOP的成本大幅降低。
构建软件生态:挑战CUDA的护城河
长期以来,软件生态是TPU相比英伟达GPU的最大短板。CUDA已成为行业事实标准,开发者迁移到TPU需要重写大量代码和工具链。
为此,谷歌正在三个关键方向上投入大量资源,以打破CUDA的锁定效应:
- 支持原生PyTorch:TPUv7支持原生PyTorch集成,包括急切执行、完整的分布式API、torch.compile以及自定义TPU内核支持,目标是让PyTorch在TPU上能像在NVIDIA GPU上一样顺畅运行。这对于依赖 PyTorch 进行模型开发的团队至关重要。
- 集成主流推理库:谷歌积极参与如vLLM和SGLang等流行开源推理框架的开发,并宣布为TPU提供测试版支持。
- 优化编译器:持续增强XLA编译器的自动并行化能力,降低开发者的使用门槛。
不过,挑战依然存在。TPU软件栈的核心——XLA编译器仍未开源,且文档有待完善,这给开发者调试和深度优化带来了困难。分析师认为,若能开源部分关键组件,将显著加速TPU的普及。
激进的部署策略
为了加速数十万颗TPU的部署,谷歌采用了灵活的融资与部署策略,例如与新型云服务商及改造后的加密货币矿场合作。在这些合作中,谷歌充当“最终支付保障者”,若运营方出现问题,谷歌承诺继续支付芯片租金,从而快速将大量旧数据中心转化为AI算力设施。
竞争格局与未来展望
面对挑战,英伟达正在准备下一代“Vera Rubin”架构进行反击,预计将采用HBM4内存和新的互联技术。而谷歌规划的TPUv8则可能采用双供应链策略,但与竞争对手相比,其在制程工艺(如2nm)和内存(HBM4)的采用上可能略显保守。
分析师指出,如果英伟达Rubin如期实现性能跃升,TPU当前的成本优势可能会被削弱。此外,TPU作为专用集成电路(ASIC),虽然在特定深度学习任务上效率极高,但其灵活性远不如通用性更强的GPU。GPU能够运行各类算法和非AI工作负载,并拥有全球最庞大的开发者生态系统和更易获取的工程人才。
业界专家建议,对于需要快速迭代、应对复杂动态工作负载的场景,GPU仍是更稳妥的选择。而要充分发挥TPU的潜力,需要具备编写自定义内核和深度优化编译器的稀缺技能。
综上所述,AI硬件竞赛正日趋白热化。TPU凭借其卓越的性价比和架构优势,已成为不可忽视的强力竞争者。然而,英伟达GPU在软件生态、通用性和市场成熟度上依然拥有深厚壁垒。未来的高性能AI系统,很可能走向混合架构,根据任务特性灵活调配TPU与GPU资源,而非单一的胜利者通吃。