找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

606

积分

0

好友

84

主题
发表于 昨天 06:46 | 查看: 1| 回复: 0

摩根士丹利最新研报指出,谷歌TPU的产能即将迎来爆发式增长,且供应链的不确定性已基本解决,这为谷歌对外销售芯片扫清了障碍。报告大幅上调了预测,预计2027年TPU产量将达500万块,2028年更将攀升至700万块,较此前预测分别上调67%和120%。这意味着未来两年的计划产量,将远超过去四年的总和。

从战略层面看,谷歌意图明确,计划向第三方数据中心销售TPU,作为其谷歌云平台(GCP)业务的重要补充。尽管大部分TPU仍将用于谷歌自身的AI训练和云服务,但如此庞大的产能储备,无疑是为更广泛的商业化铺路。在全行业对先进AI算力需求高涨的背景下,谷歌显然不愿错过这轮红利。

这一系列动态表明,英伟达在AI芯片市场一家独大的格局,正迎来前所未有的挑战。

图片

(动图来自博主赛博轩Albert)

近期,业内对谷歌TPU与英伟达GPU的技术较量关注度颇高。一篇题为《2025年AI推理成本:谷歌TPU为何比英伟达GPU性能高出4倍》的报道,系统分析了两者的技术差异与性能对比。

AI算力的分野:训练与推理

要理解市场正在发生的巨变,首先需要剖析人工智能计算的两大支柱:训练和推理。

图片

训练:英伟达的传统优势领域

训练是向神经网络注入海量数据,以“教会”它们识别模式、做出预测的密集型过程。它需要极强的并行计算能力,涉及数千个GPU协同进行矩阵乘法等运算。英伟达正是凭借在此领域的深厚积累构建了其帝国。其CUDA软件生态和Hopper架构(如H100 GPU)专为处理此类高强度计算任务设计,催生了GPT-4等突破性模型。

但训练具有一次性特征,成本虽然高昂(例如GPT-4训练成本约1.5亿美元),却是前置且有限的。长期以来,英伟达GPU因其在图形、模拟和通用计算方面的多功能性,成为此阶段的首选。

推理:持续增长的成本中心

推理则是模型的部署与应用阶段,如每次ChatGPT查询、图像生成或推荐算法运行。与训练不同,推理是持续进行的,每处理一个token、每一次用户交互都会产生成本。

严峻的现实在于,推理需求随着使用量增长呈指数级上升。OpenAI 2024年的推理支出预计高达23亿美元,是其GPT-4训练成本的15倍。分析师估计,到2026年,推理需求可能比训练需求高出118倍;到2030年,推理计算将消耗75%的AI算力资源。在这个领域,每次查询的成本变得至关重要,而英伟达为高吞吐量并行训练优化的GPU,在处理持续查询时往往面临能效挑战。

谷歌TPU:为推理时代而生的专用架构

谷歌TPU并非偶然产物,它是为其庞大的搜索、YouTube推荐等业务量身定制的专用集成电路(ASIC),核心专长为处理人工智能的基础数学运算——张量运算。

架构优势:TPU如何在推理中确立优势

图片

TPU的核心优势在于其脉动阵列设计,该硬件网格能高效流动数据,减少频繁的内存访问,从而显著降低延迟与能耗。相比之下,英伟达GPU如同功能强大的瑞士军刀,需要即时解码指令,带来了额外开销。

对于大规模语言模型等推理任务,这种架构差异直接转化为巨大的性价比优势。分析指出,TPU的性价比可达英伟达H100的四倍。谷歌最新的Ironwood(v7)TPU速度是v6的四倍,峰值算力是v5p的十倍,每一代都能带来2-3倍的性价比提升。

能效是另一关键优势。TPU采用垂直供电等设计,在执行搜索查询时可比GPU节能60-65%。在MLPerf基准测试中,TPU v5e在9个推理类别中的8个领先。

价格层面,按需使用的TPU v6e起价为每小时1.375美元,长期合约价可低至0.55美元/小时,且无需支付英伟达的授权费。用户反馈表明,在特定工作负载下,一个v5e扩展舱的性价比优于八个H100扩展舱。

ASIC与GPU的本质区别

图片

要理解TPU如何挑战英伟达,需掌握ASIC与GPU的根本架构差异。

  • GPU(图形处理器):本质是通用处理器。最初为图形渲染设计,后被用于AI。其优势在于多功能性,可处理游戏、科学模拟、加密货币及神经网络等多种负载,是AI早期发展的“多面手”。
  • ASIC(专用集成电路):是为单一目的设计的专业芯片。谷歌TPU专为矩阵乘法和张量运算硬编码,牺牲灵活性以换取极致效率。每个晶体管都针对单一目标优化,实现高速、低能耗的张量处理。

简单比喻:GPU像全能运动员,而ASIC像奥运短跑冠军。对于需要24/7不间断运行的推理任务,“短跑冠军”更具优势。

ASIC的核心优势包括

  • 能效:消除指令解码开销,相同负载下能耗降低60-65%。
  • 低延迟:脉动阵列提供确定性数据流,避免GPU内存层次结构带来的延迟波动,对实时应用至关重要。
  • 每操作成本:去除冗余电路,在Transformer模型上实现更高的每美元性能。
  • 可扩展性:可通过定制互连(如TPU Pod)实现近乎线性的扩展,突破PCIe的限制。

当然,ASIC的专用性亦是其局限。训练新模型、尝试新架构或运行非AI任务仍需GPU的灵活性。因此,未来趋势是战略分工:GPU用于研究和训练,ASIC用于生产推理。这也意味着企业需要构建更复杂的异构计算策略,正如在云原生/IaaS实践中管理混合工作负载一样普遍。

现实案例:行业巨头转向TPU

迁移案例最能说明趋势。全球领先的AI运营商正转向TPU,以实现显著的成本节约和扩展。

  • Midjourney:2024年从GPU转向TPU后,其月度推理成本从200万美元降至70万美元,降幅达65%。吞吐量提升了3倍。
  • Anthropic:与谷歌达成价值数百亿美元协议,承诺使用多达100万个TPU。其CEO表示,“卓越的性价比和效率”是交易关键。
  • Meta:作为英伟达最大客户之一,正就价值数十亿美元的TPU部署进行深入洽谈,计划从2026年起通过谷歌云租赁TPU,并考虑在2027年前部署本地TPU,用于Llama微调等任务。

决策指南:何时选择TPU或GPU

选择TPU还是英伟达GPU取决于具体的工作负载、规模与基础设施策略。

在以下情况选择TPU

  • 月度推理成本超过5万美元,TPU可节省40-65%的成本。
  • 工作负载为大规模LLM服务、推荐系统、图像/视频生成等张量密集型操作。
  • 已部署或计划采用Google Cloud及TensorFlow/JAX生态。
  • 对能源效率和可持续发展目标有较高要求。

在以下情况选择英伟达GPU

  • 需要进行模型训练、自定义架构研究,或依赖特定的CUDA库和工具链。
  • 执行多云战略,要求硬件在AWS、Azure及本地数据中心间可移植。
  • 工作负载多样化,包含图形渲染、模拟或非AI计算。
  • 预算有限(如月算力支出低于2万美元),迁移成本不划算。

混合战略已成为许多企业的务实选择,例如使用NVIDIA H100进行训练与实验,同时部署TPU v6e/v7集群用于生产推理,可在保持研发灵活性的同时,优化40-50%的总计算成本。

挑战与未来展望

TPU并非没有挑战。其生态与TensorFlow/JAX深度绑定,相比英伟达CUDA的通用性有所限制。大规模扩展TPU(如组建Pod)需要深度集成Google Cloud的架构。

竞争也在加剧。亚马逊的Trainium、微软的Maia等专用芯片正涌入市场,加剧了ASIC领域的碎片化。然而,谷歌TPU凭借其九代产品的迭代经验和支撑谷歌万亿级查询的实战规模,目前仍保持领先。

供应链方面,谷歌正与博通、台积电合作加速v7芯片生产,预计到2026年,TPU供应将能更好地满足市场需求。

结论

英伟达凭借在训练时代的辉煌建立了计算帝国,但推理主导的未来正在到来。在这一领域,专用架构展现出显著优势。谷歌TPU凭借数倍的性价比,正吸引着Midjourney、Anthropic、Meta等行业巨头的转向,预示着AI计算市场格局正在发生深刻变革。这一转变不仅关乎硬件竞争,更将推动整个人工智能产业向更高效、更可持续的方向演进。




上一篇:XDR实战:三大关键能力助力企业从“看到攻击”到“搞定攻击”
下一篇:微星B360M迫击炮主板评测:180元捡漏支持Intel 8/9代CPU的NAS神器
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-12 08:34 , Processed in 0.083077 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表