找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5296

积分

0

好友

707

主题
发表于 昨天 18:20 | 查看: 5| 回复: 0

1. 市场分裂:两条增长曲线正式分岔

AI芯片的未来还会是英伟达一家独霸吗?

先上硬核数据。根据彭博情报的预测,到2033年,整个AI加速器市场的总盘子会冲到 6040亿美元。其中,通用GPU的年复合增长率是16.1%,而云厂商定制的ASIC芯片,年复合增长率直接飙到了 44.6% ,几乎是前者的三倍。

2026年就是一个分水岭。全球AI加速器市场已经走出了截然不同的两条增长轨迹。

市场细分领域 2024 年营收 2033 年预测值 复合年均增长率 主要应用场景
通用型 GPU (NVIDIA) 约 1300 亿美元 约 2900 亿美元 16.1% 模型训练、灵活推理
定制 ASIC (云厂商自研) 约 180 亿美元 约 1650 亿美元 44.6% 优化推理、专用训练
其他加速器 (AMD、Intel) 约 120 亿美元 约 550 亿美元 约 18% 成本敏感型训练、云端部署
AI 加速器市场整体 约 1600 亿美元 约 6040 亿美元 约 16% 全场景 AI 计算

表:2024-2033年AI加速器市场规模预测对比

为什么会出现这种分化?

道理其实不复杂。通用GPU,基本就是英伟达的天下,它在大模型训练上的优势至今无人能撼动。CUDA生态十几年堆出来的护城河,加上其灵活的可编程特性,训练新模型依然非它不可。未来十年,这个位置很难被替代,保持16%的稳定增长没有问题。

但AI算力的结构已经变了。训练一个大模型,花大价钱搞一次或者微调几次就够了。可把模型推给用户用,也就是推理,现在已经占了所有AI算力的三分之二,而且这个比例只会越来越大。

推理的需求很明确:模型结构是固定的,对成本极度敏感,不需要通用GPU那么强的灵活性。这恰好给定制ASIC留出了巨大的发挥空间。拼成本、拼效率,针对特定场景“开小灶”的定制芯片,比“大锅饭”的通用GPU强太多了。

最直观的例子就是Midjourney。他们公开的数据显示,把推理业务从英伟达GPU迁移到谷歌TPU之后,每月算力成本从210万美元直接降到了70万美元,降幅高达65%。

这个数字,放大到云厂商百万级别的芯片部署规模上,一年省下来的就是几十上百亿美元。这笔账,谁都能算明白。

2026年,全球头部云厂商总资本开支达到了6600到6900亿美元,其中75%都砸在了AI基础设施上,每家都有600到800亿美元的AI预算。肉眼可见的是,越来越多的钱正流向自研的定制芯片,而不是英伟达的GPU。

2. 四大云厂商的定制芯片军火库

谷歌、微软、亚马逊、Meta,这四家如今都拿出了已经量产的成熟定制芯片。我们一个个拆开看,瞧瞧它们的参数和背后那点小心思。

谷歌 TPU v7 "Ironwood":为Transformer而生

谷歌做TPU已经做到了第七代,从2015年就开始了。这次的Ironwood是架构升级最大的一代,完全为超大规模推理量身打造。

它采用台积电3nm工艺,单芯片峰值FP8算力达到4.6 PFLOPS,配备192GB HBM3e内存,带宽超过7.2TB/s。从架构层面看,这芯片就是为自家的Gemini这类Transformer模型而生的,专门对注意力机制的计算做了硬件优化。

谷歌把9216颗Ironwood组成一个Pod,用自家的定制光网状互联,解决了GPU集群常见的网络瓶颈。现在Anthropic已经部署了超过 一百万颗 TPU v7来跑Claude的推理。这也是定制AI芯片史上,第一次有单个客户突破百万颗的部署量。

对谷歌来说,TPU既自用,也开放给谷歌云的客户,直接在性价比上和英伟达的GPU实例对打,走的是“从芯片到云”的垂直整合路线。

顺便提一句,谷歌的V8也发布了,推理和训练芯片也分开了。

谷歌第八代TPU深度拆解:专为Agentic AI设计,专门分两款打不同场景

微软 Maia 200:GPT的“私人订制”

微软的第二代定制AI加速器在2026年初刚问世。这玩意儿攒了好几年,是和AMD、台积电一起打磨出来的。

同样是台积电3nm工艺,单芯片封装了超过1400亿个晶体管,FP4算力超过10 PFLOPS。微软宣称这个性能是亚马逊Trainium 3的三倍以上。内存方面,配了216GB HBM3e,是2026年量产定制芯片里容量最大的。峰值功耗750W,刚好卡在标准液冷机架的范围内。

微软的思路很清晰,Maia 200就是为OpenAI的GPT系列模型深度定制的,从固件、编译器到算子,全是量身优化。它不是为了完全替换英伟达GPU,而是打互补——训练和一些通用推理继续用英伟达,但GPT专属的推理流量,全部切到Maia集群上。这么一来,摊到每个token上的成本优势会像滚雪球一样越来越大。

亚马逊 Trainium 3:价格屠夫

亚马逊从2019年的Inferentia开始做定制芯片,到2025年re:Invent大会上,已经迭代到了第三代Trainium 3,路线走得很稳。

同样基于台积电3nm工艺,单芯片FP8算力2.52 PFLOPS,配144GB HBM3e内存,自带专门的NeuronCore,同时支持训练和推理,硬件层面就支持跨芯片的模型并行。

亚马逊可以把Trainium 3组成一个最多包含一百万颗芯片的UltraCluster,用定制的EFA互联,单节点带宽3.2Tbps。官方说法是:同等算力下,比用英伟达的实例便宜一半。这个降价幅度,对于英伟达的GPU业务来说,是当前最凶悍的价格压力。

而且,亚马逊的Neuron SDK已经相当成熟,PyTorch和JAX的任务只需改很少的代码就能跑通,迁移门槛远没有想象中那么高。

Meta MTIA:闷声发大财

Meta是四家里推进得最快的。2026年已经有三代芯片在跑了,全部自用,不对外卖,所以公开参数不多。目标简单粗暴:满足自家30亿用户的Llama推理需求。

现在大规模部署的是MTIA v2,主要跑Facebook和Instagram的排序推荐推理。今年年中,MTIA v3会量产,专门为Llama系列生成式AI推理而生。年底,v4 “Santa Barbara”会出样片,这也是Meta第一款用上HBM4内存的芯片,专门瞄准高带宽需求的任务。

有意思的是,Meta现在的分工非常明确:训练依旧找英伟达买H100和B200,推理全部上自己的MTIA。说实话,这已经是当下整个行业的普遍玩法了。

除此之外,OpenAI也在联合博通,砸了大概100亿美元设计自己的定制推理芯片,目标是在2029年部署10GW的算力容量,对应着几十万颗芯片。目前还处在设计阶段,后续的动静肯定不会小。

3. 2026年主流AI芯片参数横评

我把现在市面上已经量产和即将出样的几款主力芯片,包括各家定制ASIC和英伟达的新卡,整理了一个参数对比表。大家可以直接感受一下硬碰硬的差异:

规格参数 谷歌 TPU v7 Ironwood 微软 Maia 200 亚马逊 Trainium 3 NVIDIA Vera Rubin NVIDIA B200 (Blackwell)
制程工艺 台积电 3nm 台积电 3nm 台积电 3nm 台积电 3nm(预计) 台积电 4nm
晶体管数量 未披露 1400 亿 + 未披露 3360 亿 2080 亿
峰值算力 (FP8) 4.6 PFLOPS 约 5 PFLOPS(估算) 2.52 PFLOPS 约 25 PFLOPS(估算) 4.5 PFLOPS
峰值算力 (FP4) 未披露 10+ PFLOPS 未披露 50 PFLOPS 9 PFLOPS
显存 192GB HBM3e 216GB HBM3e 144GB HBM3e 288GB HBM4 192GB HBM3e
显存带宽 7.2+ TB/s 约 8 TB/s(估算) 约 5 TB/s(估算) 12+ TB/s(估算) 8 TB/s
热设计功耗 (TDP) 约 500W(估算) 750W 约 600W(估算) 约 1000W(估算) 1000W
最大集群 / 机柜规模 9216 颗芯片 Azure 机架级集群 100 万颗芯片(超集群) Vera Rubin NVL144 GB200 NVL72
互联技术 自研光互联网格 Azure 定制互联 EFA 3.2 Tbps NVLink 6(3.6 TB/s) NVLink 5(1.8 TB/s)
主要负载 推理 推理(GPT 专项优化) 训练 + 推理 训练 + 推理 训练 + 推理
上市 / 可用时间 量产(2025 年起) 2026 年初 2026 年中 2026 年末 / 2027 年初 量产(2025 年)

表:2026年主流AI加速器参数对比

这份表里,最受瞩目的当然是英伟达用来反击的大杀器,Vera Rubin。我们单独拎出来聊聊。

4. 英伟达的反击:Vera Rubin架构

英伟达自然不会坐以待毙。黄仁勋在2026年GTC大会上直接亮出了Vera Rubin,规格直接拉满,目标也很明确:夺回推理领域的性价比优势。

Vera Rubin采用台积电3nm工艺,集成了惊人的3360亿个晶体管,FP4算力暴增至50 PFLOPS。它是全球第一款量产的、用上288GB HBM4内存的AI加速器。英伟达官方表示,其推理性能比上一代Blackwell B200高出5倍,而每生成一个token的成本,直接砍掉了十分之九。

全新的NVLink 6互联带宽翻倍,达到3.6TB/s,可以把144颗Vera Rubin组成一个NVL144集群,专为超过10万亿参数的“怪兽级”大模型训练而生。

不过,英伟达最深的护城河,至今仍是CUDA生态。超过500万活跃开发者,近二十年的库优化积累,所有主流的机器学习框架原生支持……这些都是所有定制ASIC望尘莫及的。每一家做定制芯片的都得自己搞编译器和SDK,不管是谷歌的XLA,还是亚马逊的Neuron,只要任务稍微偏离芯片预设的最优路径,用起来就会有“摩擦感”。这,就是英伟达的基本盘。

5. 推理经济学:为什么定制芯片必然崛起?

我们不妨把训练和推理的核心差异拉出来看看。一旦看清了,你就能明白市场必然走向分裂的内在逻辑。

指标 训练 推理
占 AI 总算力比例 (2026) 约 33% 约 67%
成本敏感度 中等(一次性投入) 极高(持续边际成本)
负载可预测性 多变 高度可预测
所需架构灵活性 低(模型结构已知)
定制 ASIC 优势 中等 显著
英伟达优势 强劲(CUDA、灵活性) 逐渐减弱(成本压力)

表:训练vs推理核心指标对比(数据来源:New Street Research、摩根士丹利)

现在分析师们的预测出奇一致:到2028年,英伟达在推理专用算力市场的份额,将从现在的90%以上,骤降到 20%-30%。训练市场的老大位置依旧稳固,但在推理这块,真的挡不住定制芯片的攻势了。

为什么定制芯片能把成本压得这么低?核心就三点:

第一,架构专业化。针对Transformer里的注意力机制、前馈网络、采样等常用操作,直接做成固定功能单元,剔除了通用GPU核心上那些不必要的开销,效率自然高。
第二,垂直整合。云厂商从芯片设计、编译器到模型部署,全链条自己掌控,砍掉了所有中间环节的利润加成。
第三,规模摊薄成本。一次性给台积电下单几百万颗,高昂的设计一次性费用(NRE)平摊到每颗芯片上,就没几个钱了。

6. 所有人都躲不开的台积电瓶颈

一个很有意思的观察是:2026年所有这些主流的AI芯片,不管你是定制ASIC还是英伟达的GPU,全都集中在台积电的3nm工艺上。等于说,谷歌、微软、亚马逊、Meta、英伟达这一群巨头,都在抢同一个厨房炒菜。

台积电2026年上半年的3nm产能利用率已经是 100% 了,市场需求大概是现有供应能力的三倍。新工厂哪怕现在立刻破土动工,从建成到稳定量产,也得要18到24个月,这个缺口短期内根本填不上。

台积电 3nm 客户 芯片型号 年度预估出货量 状态
谷歌 TPU v7 Ironwood 200 万颗以上 量产中
微软 Maia 200 50 万~100 万颗 产能爬坡
亚马逊 Trainium 3 100 万颗以上 产能爬坡
苹果 M4/M5 系列 3 亿颗以上 量产中
英伟达 Vera Rubin 100 万颗以上 样品送测
博通 (为OpenAI定制) 定制推理芯片 待定 设计阶段
AMD MI400 系列 50 万颗以上 样品送测

表:台积电3nm主要客户年产能预估

现在的产能分配逻辑很简单:谁下单早、下单多,谁就优先。谷歌和苹果作为台积电最大的3nm客户,天然拥有产能优先权。英伟达的晶圆量虽然也很大,但现在它自己的客户,也得和那些直接下场做芯片的云厂商抢产能。这个局面就非常微妙了。

产能本身已经变成了一种战略资源。在很多情况下,拿到产能分配比把设计做好更重要。这一点,是很多人尚未充分意识到的关键。

7. 基础设施跟着变:电力、散热、组网全要改

定制芯片的崛起,对数据中心的基础设施要求也带来了连锁反应。我们一个个来看。

功率密度和散热

2026年,云厂商们数千亿的AI资本开支,直接转化为前所未有的电力需求。好消息是,定制ASIC的功耗普遍比英伟达的旗舰GPU低:TPU v7大概500W,Trainium 3约600W,Maia 200是750W,而Vera Rubin和B200都是1000W。但坏消息是,单颗芯片功耗虽然低了,可部署总量上去了,总功耗还是在疯涨。

目前,行业已经形成了一套清晰的散热分级标准:

散热方案 风冷 直液冷 浸没式液冷
热设计功耗范围 最高 500W 500W–1000W 700W 以上
机柜功率密度 15–25 kW / 机柜 40–80 kW / 机柜 80–150+ kW / 机柜
2026 年采用率 持续下降 新建机房的 22% 新建机房的 <5%
基础设施成本 基准水平 基准的 1.3–1.8 倍 基准的 2.0–3.0 倍

表:不同TDP芯片对应散热方案对比

简单说,500W以下还能用风冷,占比越来越低;500W到1000W上直接液冷就够了,2025年新建数据中心已有22%采用;只有700W以上的才需要上最昂贵的浸没式液冷,成本是风冷的2到3倍。

可见,定制芯片在散热上是有天然优势的,大部分用不着上最贵的浸没式方案,基础设施成本本身就更低。

互联和组网

定制ASIC和英伟达GPU的互联策略完全不同。英伟达用的是标准化的NVLink,现在NVLink 6已经干到了3.6TB/s,多GPU扩展有成熟的参考架构,照着做就行。

而云厂商的定制芯片,全都用自己的“私有协议”:谷歌是光网状,亚马逊是EFA,微软是Azure定制网络。这对基础设施团队来说,意味着不同芯片的机架布局、布线方式、故障域设计都截然不同。要同时支撑两种路线,复杂度比以前高了不是一星半点。

现在的数据中心正在全面转向异构部署:英伟达GPU负责训练和一些灵活负载,定制ASIC负责大规模优化推理。一个数据中心里,得同时跑着不同架构、不同散热要求、不同互联方式的芯片。这对部署和运维的专业能力要求,上了不止一个台阶。

目前在全球范围内部署这类设施的,Introl算是做得比较大的。他们在257个地点有550个专门做高性能计算的现场工程师,三年营收暴涨了9594%,上过Inc 5000榜单,最多时部署过十万颗GPU,铺设了超过四万英里的光纤。这种物理层面的部署经验,还真不是靠软件自动化就能取代的。

8. 不同角色的行动建议

最后给不同岗位的朋友整理几个关键点,照着这个思路走,能避开不少坑。

对基础设施规划师

第一,按异构来设计。电力、散热、组网,都得预留能同时容纳英伟达GPU和定制ASIC的空间。2026年之后,数据中心的标配就是多架构共存。
第二,提前为液冷做预算。任何超过700W的新芯片都必须上液冷。旧机房改造的造价比新建贵1.5到2.5倍,晚建不如早建。
第三,提前锁定产能。3nm缺口三倍,无论你采购的是GPU还是ASIC,交付周期都已拉长到12到18个月。如果目标是2027年部署,现在就得下commitment。

对运维团队

第一,准备新的管理工具。定制芯片有自己的一套监控、诊断和编排栈,和英伟达的DCGM/NVSMI完全是两码事,团队要提前培训。
第二,私有互联的维护流程。这和标准的以太网、InfiniBand维护流程不一样,得提前做好对应准备。
第三,接受混合散热环境。同一个数据中心里,可能会同时有空冷旧服务器、直液冷定制ASIC和浸没式冷却的英伟达集群,每套设备的维护流程都不同,需要提前梳理清晰。

对战略决策者

第一,预算如何分配? 英伟达在训练上的护城河虽然收窄,但依然稳固,预算就该这么分:训练买英伟达,发挥CUDA的灵活性价值;高吞吐的推理优先看定制ASIC,拼的是每token成本。
第二,盯紧20-30%这个份额阈值。如果到2028年,英伟达在推理市场的份额真掉到这个区间,整个定价逻辑都会重构。不要搞“全英伟达”绑定,提前布局多供应商策略。
第三,资本支出越早规划越好。2026年大几千亿的总投入,已经把芯片、网络、电力、散热整条供应链都绷紧了。任何决策延迟,都可能带来长达18个月的交付拖延。

9. 接下来会怎么走?

2026年只是拐点,远非终点。未来两三年,还有几个变量会加速这场变革:

第一,英伟达Vera Rubin的实际表现。如果真能兑现“5倍性能、成本降低90%”的承诺,那它确实能抢回一部分推理市场,减缓定制芯片渗透的速度。但关键看实际产能够不够,而不是纸面参数有多漂亮。

第二,HBM4的换代。Meta的MTIA v4和英伟达的Vera Rubin都已用上HBM4,带宽是HBM3e的两倍。率先适配新内存的芯片,将拿到下一代的性能优势,还卡在HBM3e上的则会陷入被动。

第三,OpenAI的定制芯片何时上量。OpenAI现在对英伟达和微软依赖度很高,但他们那几十万颗定制芯片一旦真的做出来了,将会引领整个行业跟进搞自研。

第四,台积电新产能。2027年底会逐步释放,缺口会有所缓解。同时,英特尔的18A代工方案也会给市场多一个选择,只是目前AI芯片设计厂商跟进得还不多。

说白了,AI加速器市场在2026年已经出现了一种任何厂商都难以控制的结构性分裂。

英伟达确实为整个大规模AI时代铺好了地基,CUDA至今仍是计算领域最重要的软件生态。但大规模推理的经济账,加上云厂商们想要把芯片成本掌握在自己手里的野心,已经不可逆转地将市场推向了一个多供应商的未来。未来十年的数据中心架构,正是由这个变化定义的。

无论组织规模大小,只要你部署AI基础设施,现在都不得不回答一个问题:在一个没有“单芯片赢家”的世界里,你该如何规划自己的路线?在云栈社区,我们持续追踪这类底层的技术趋势变迁,欢迎一起交流探讨。

参考:
https://introl.com/blog/custom-silicon-inflection-2026-hyperscaler-asics-nvidia-gpu




上一篇:GPU架构硬核拆解:从晶体管、CUDA核心到AI算力,以NVIDIA GA102为例
下一篇:TPU是如何用十年时间,从“偏科生”成长为AI超算一极的?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-6 00:25 , Processed in 1.075654 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表