1. 市场分裂:两条增长曲线正式分岔
AI芯片的未来还会是英伟达一家独霸吗?
先上硬核数据。根据彭博情报的预测,到2033年,整个AI加速器市场的总盘子会冲到 6040亿美元。其中,通用GPU的年复合增长率是16.1%,而云厂商定制的ASIC芯片,年复合增长率直接飙到了 44.6% ,几乎是前者的三倍。
2026年就是一个分水岭。全球AI加速器市场已经走出了截然不同的两条增长轨迹。
| 市场细分领域 |
2024 年营收 |
2033 年预测值 |
复合年均增长率 |
主要应用场景 |
| 通用型 GPU (NVIDIA) |
约 1300 亿美元 |
约 2900 亿美元 |
16.1% |
模型训练、灵活推理 |
| 定制 ASIC (云厂商自研) |
约 180 亿美元 |
约 1650 亿美元 |
44.6% |
优化推理、专用训练 |
| 其他加速器 (AMD、Intel) |
约 120 亿美元 |
约 550 亿美元 |
约 18% |
成本敏感型训练、云端部署 |
| AI 加速器市场整体 |
约 1600 亿美元 |
约 6040 亿美元 |
约 16% |
全场景 AI 计算 |
表:2024-2033年AI加速器市场规模预测对比
为什么会出现这种分化?
道理其实不复杂。通用GPU,基本就是英伟达的天下,它在大模型训练上的优势至今无人能撼动。CUDA生态十几年堆出来的护城河,加上其灵活的可编程特性,训练新模型依然非它不可。未来十年,这个位置很难被替代,保持16%的稳定增长没有问题。
但AI算力的结构已经变了。训练一个大模型,花大价钱搞一次或者微调几次就够了。可把模型推给用户用,也就是推理,现在已经占了所有AI算力的三分之二,而且这个比例只会越来越大。
推理的需求很明确:模型结构是固定的,对成本极度敏感,不需要通用GPU那么强的灵活性。这恰好给定制ASIC留出了巨大的发挥空间。拼成本、拼效率,针对特定场景“开小灶”的定制芯片,比“大锅饭”的通用GPU强太多了。
最直观的例子就是Midjourney。他们公开的数据显示,把推理业务从英伟达GPU迁移到谷歌TPU之后,每月算力成本从210万美元直接降到了70万美元,降幅高达65%。
这个数字,放大到云厂商百万级别的芯片部署规模上,一年省下来的就是几十上百亿美元。这笔账,谁都能算明白。
2026年,全球头部云厂商总资本开支达到了6600到6900亿美元,其中75%都砸在了AI基础设施上,每家都有600到800亿美元的AI预算。肉眼可见的是,越来越多的钱正流向自研的定制芯片,而不是英伟达的GPU。
2. 四大云厂商的定制芯片军火库
谷歌、微软、亚马逊、Meta,这四家如今都拿出了已经量产的成熟定制芯片。我们一个个拆开看,瞧瞧它们的参数和背后那点小心思。
谷歌做TPU已经做到了第七代,从2015年就开始了。这次的Ironwood是架构升级最大的一代,完全为超大规模推理量身打造。
它采用台积电3nm工艺,单芯片峰值FP8算力达到4.6 PFLOPS,配备192GB HBM3e内存,带宽超过7.2TB/s。从架构层面看,这芯片就是为自家的Gemini这类Transformer模型而生的,专门对注意力机制的计算做了硬件优化。
谷歌把9216颗Ironwood组成一个Pod,用自家的定制光网状互联,解决了GPU集群常见的网络瓶颈。现在Anthropic已经部署了超过 一百万颗 TPU v7来跑Claude的推理。这也是定制AI芯片史上,第一次有单个客户突破百万颗的部署量。
对谷歌来说,TPU既自用,也开放给谷歌云的客户,直接在性价比上和英伟达的GPU实例对打,走的是“从芯片到云”的垂直整合路线。
顺便提一句,谷歌的V8也发布了,推理和训练芯片也分开了。
谷歌第八代TPU深度拆解:专为Agentic AI设计,专门分两款打不同场景
微软 Maia 200:GPT的“私人订制”
微软的第二代定制AI加速器在2026年初刚问世。这玩意儿攒了好几年,是和AMD、台积电一起打磨出来的。
同样是台积电3nm工艺,单芯片封装了超过1400亿个晶体管,FP4算力超过10 PFLOPS。微软宣称这个性能是亚马逊Trainium 3的三倍以上。内存方面,配了216GB HBM3e,是2026年量产定制芯片里容量最大的。峰值功耗750W,刚好卡在标准液冷机架的范围内。
微软的思路很清晰,Maia 200就是为OpenAI的GPT系列模型深度定制的,从固件、编译器到算子,全是量身优化。它不是为了完全替换英伟达GPU,而是打互补——训练和一些通用推理继续用英伟达,但GPT专属的推理流量,全部切到Maia集群上。这么一来,摊到每个token上的成本优势会像滚雪球一样越来越大。
亚马逊 Trainium 3:价格屠夫
亚马逊从2019年的Inferentia开始做定制芯片,到2025年re:Invent大会上,已经迭代到了第三代Trainium 3,路线走得很稳。
同样基于台积电3nm工艺,单芯片FP8算力2.52 PFLOPS,配144GB HBM3e内存,自带专门的NeuronCore,同时支持训练和推理,硬件层面就支持跨芯片的模型并行。
亚马逊可以把Trainium 3组成一个最多包含一百万颗芯片的UltraCluster,用定制的EFA互联,单节点带宽3.2Tbps。官方说法是:同等算力下,比用英伟达的实例便宜一半。这个降价幅度,对于英伟达的云GPU业务来说,是当前最凶悍的价格压力。
而且,亚马逊的Neuron SDK已经相当成熟,PyTorch和JAX的任务只需改很少的代码就能跑通,迁移门槛远没有想象中那么高。
Meta是四家里推进得最快的。2026年已经有三代芯片在跑了,全部自用,不对外卖,所以公开参数不多。目标简单粗暴:满足自家30亿用户的Llama推理需求。
现在大规模部署的是MTIA v2,主要跑Facebook和Instagram的排序推荐推理。今年年中,MTIA v3会量产,专门为Llama系列生成式AI推理而生。年底,v4 “Santa Barbara”会出样片,这也是Meta第一款用上HBM4内存的芯片,专门瞄准高带宽需求的任务。
有意思的是,Meta现在的分工非常明确:训练依旧找英伟达买H100和B200,推理全部上自己的MTIA。说实话,这已经是当下整个行业的普遍玩法了。
除此之外,OpenAI也在联合博通,砸了大概100亿美元设计自己的定制推理芯片,目标是在2029年部署10GW的算力容量,对应着几十万颗芯片。目前还处在设计阶段,后续的动静肯定不会小。
3. 2026年主流AI芯片参数横评
我把现在市面上已经量产和即将出样的几款主力芯片,包括各家定制ASIC和英伟达的新卡,整理了一个参数对比表。大家可以直接感受一下硬碰硬的差异:
| 规格参数 |
谷歌 TPU v7 Ironwood |
微软 Maia 200 |
亚马逊 Trainium 3 |
NVIDIA Vera Rubin |
NVIDIA B200 (Blackwell) |
| 制程工艺 |
台积电 3nm |
台积电 3nm |
台积电 3nm |
台积电 3nm(预计) |
台积电 4nm |
| 晶体管数量 |
未披露 |
1400 亿 + |
未披露 |
3360 亿 |
2080 亿 |
| 峰值算力 (FP8) |
4.6 PFLOPS |
约 5 PFLOPS(估算) |
2.52 PFLOPS |
约 25 PFLOPS(估算) |
4.5 PFLOPS |
| 峰值算力 (FP4) |
未披露 |
10+ PFLOPS |
未披露 |
50 PFLOPS |
9 PFLOPS |
| 显存 |
192GB HBM3e |
216GB HBM3e |
144GB HBM3e |
288GB HBM4 |
192GB HBM3e |
| 显存带宽 |
7.2+ TB/s |
约 8 TB/s(估算) |
约 5 TB/s(估算) |
12+ TB/s(估算) |
8 TB/s |
| 热设计功耗 (TDP) |
约 500W(估算) |
750W |
约 600W(估算) |
约 1000W(估算) |
1000W |
| 最大集群 / 机柜规模 |
9216 颗芯片 |
Azure 机架级集群 |
100 万颗芯片(超集群) |
Vera Rubin NVL144 |
GB200 NVL72 |
| 互联技术 |
自研光互联网格 |
Azure 定制互联 |
EFA 3.2 Tbps |
NVLink 6(3.6 TB/s) |
NVLink 5(1.8 TB/s) |
| 主要负载 |
推理 |
推理(GPT 专项优化) |
训练 + 推理 |
训练 + 推理 |
训练 + 推理 |
| 上市 / 可用时间 |
量产(2025 年起) |
2026 年初 |
2026 年中 |
2026 年末 / 2027 年初 |
量产(2025 年) |
表:2026年主流AI加速器参数对比
这份表里,最受瞩目的当然是英伟达用来反击的大杀器,Vera Rubin。我们单独拎出来聊聊。
4. 英伟达的反击:Vera Rubin架构
英伟达自然不会坐以待毙。黄仁勋在2026年GTC大会上直接亮出了Vera Rubin,规格直接拉满,目标也很明确:夺回推理领域的性价比优势。
Vera Rubin采用台积电3nm工艺,集成了惊人的3360亿个晶体管,FP4算力暴增至50 PFLOPS。它是全球第一款量产的、用上288GB HBM4内存的AI加速器。英伟达官方表示,其推理性能比上一代Blackwell B200高出5倍,而每生成一个token的成本,直接砍掉了十分之九。
全新的NVLink 6互联带宽翻倍,达到3.6TB/s,可以把144颗Vera Rubin组成一个NVL144集群,专为超过10万亿参数的“怪兽级”大模型训练而生。
不过,英伟达最深的护城河,至今仍是CUDA生态。超过500万活跃开发者,近二十年的库优化积累,所有主流的机器学习框架原生支持……这些都是所有定制ASIC望尘莫及的。每一家做定制芯片的都得自己搞编译器和SDK,不管是谷歌的XLA,还是亚马逊的Neuron,只要任务稍微偏离芯片预设的最优路径,用起来就会有“摩擦感”。这,就是英伟达的基本盘。
5. 推理经济学:为什么定制芯片必然崛起?
我们不妨把训练和推理的核心差异拉出来看看。一旦看清了,你就能明白市场必然走向分裂的内在逻辑。
| 指标 |
训练 |
推理 |
| 占 AI 总算力比例 (2026) |
约 33% |
约 67% |
| 成本敏感度 |
中等(一次性投入) |
极高(持续边际成本) |
| 负载可预测性 |
多变 |
高度可预测 |
| 所需架构灵活性 |
高 |
低(模型结构已知) |
| 定制 ASIC 优势 |
中等 |
显著 |
| 英伟达优势 |
强劲(CUDA、灵活性) |
逐渐减弱(成本压力) |
表:训练vs推理核心指标对比(数据来源:New Street Research、摩根士丹利)
现在分析师们的预测出奇一致:到2028年,英伟达在推理专用算力市场的份额,将从现在的90%以上,骤降到 20%-30%。训练市场的老大位置依旧稳固,但在推理这块,真的挡不住定制芯片的攻势了。
为什么定制芯片能把成本压得这么低?核心就三点:
第一,架构专业化。针对Transformer里的注意力机制、前馈网络、采样等常用操作,直接做成固定功能单元,剔除了通用GPU核心上那些不必要的开销,效率自然高。
第二,垂直整合。云厂商从芯片设计、编译器到模型部署,全链条自己掌控,砍掉了所有中间环节的利润加成。
第三,规模摊薄成本。一次性给台积电下单几百万颗,高昂的设计一次性费用(NRE)平摊到每颗芯片上,就没几个钱了。
6. 所有人都躲不开的台积电瓶颈
一个很有意思的观察是:2026年所有这些主流的AI芯片,不管你是定制ASIC还是英伟达的GPU,全都集中在台积电的3nm工艺上。等于说,谷歌、微软、亚马逊、Meta、英伟达这一群巨头,都在抢同一个厨房炒菜。
台积电2026年上半年的3nm产能利用率已经是 100% 了,市场需求大概是现有供应能力的三倍。新工厂哪怕现在立刻破土动工,从建成到稳定量产,也得要18到24个月,这个缺口短期内根本填不上。
| 台积电 3nm 客户 |
芯片型号 |
年度预估出货量 |
状态 |
| 谷歌 |
TPU v7 Ironwood |
200 万颗以上 |
量产中 |
| 微软 |
Maia 200 |
50 万~100 万颗 |
产能爬坡 |
| 亚马逊 |
Trainium 3 |
100 万颗以上 |
产能爬坡 |
| 苹果 |
M4/M5 系列 |
3 亿颗以上 |
量产中 |
| 英伟达 |
Vera Rubin |
100 万颗以上 |
样品送测 |
| 博通 (为OpenAI定制) |
定制推理芯片 |
待定 |
设计阶段 |
| AMD |
MI400 系列 |
50 万颗以上 |
样品送测 |
表:台积电3nm主要客户年产能预估
现在的产能分配逻辑很简单:谁下单早、下单多,谁就优先。谷歌和苹果作为台积电最大的3nm客户,天然拥有产能优先权。英伟达的晶圆量虽然也很大,但现在它自己的客户,也得和那些直接下场做芯片的云厂商抢产能。这个局面就非常微妙了。
产能本身已经变成了一种战略资源。在很多情况下,拿到产能分配比把设计做好更重要。这一点,是很多人尚未充分意识到的关键。
7. 基础设施跟着变:电力、散热、组网全要改
定制芯片的崛起,对数据中心的基础设施要求也带来了连锁反应。我们一个个来看。
功率密度和散热
2026年,云厂商们数千亿的AI资本开支,直接转化为前所未有的电力需求。好消息是,定制ASIC的功耗普遍比英伟达的旗舰GPU低:TPU v7大概500W,Trainium 3约600W,Maia 200是750W,而Vera Rubin和B200都是1000W。但坏消息是,单颗芯片功耗虽然低了,可部署总量上去了,总功耗还是在疯涨。
目前,行业已经形成了一套清晰的散热分级标准:
| 散热方案 |
风冷 |
直液冷 |
浸没式液冷 |
| 热设计功耗范围 |
最高 500W |
500W–1000W |
700W 以上 |
| 机柜功率密度 |
15–25 kW / 机柜 |
40–80 kW / 机柜 |
80–150+ kW / 机柜 |
| 2026 年采用率 |
持续下降 |
新建机房的 22% |
新建机房的 <5% |
| 基础设施成本 |
基准水平 |
基准的 1.3–1.8 倍 |
基准的 2.0–3.0 倍 |
表:不同TDP芯片对应散热方案对比
简单说,500W以下还能用风冷,占比越来越低;500W到1000W上直接液冷就够了,2025年新建数据中心已有22%采用;只有700W以上的才需要上最昂贵的浸没式液冷,成本是风冷的2到3倍。
可见,定制芯片在散热上是有天然优势的,大部分用不着上最贵的浸没式方案,基础设施成本本身就更低。
互联和组网
定制ASIC和英伟达GPU的互联策略完全不同。英伟达用的是标准化的NVLink,现在NVLink 6已经干到了3.6TB/s,多GPU扩展有成熟的参考架构,照着做就行。
而云厂商的定制芯片,全都用自己的“私有协议”:谷歌是光网状,亚马逊是EFA,微软是Azure定制网络。这对基础设施团队来说,意味着不同芯片的机架布局、布线方式、故障域设计都截然不同。要同时支撑两种路线,复杂度比以前高了不是一星半点。
现在的数据中心正在全面转向异构部署:英伟达GPU负责训练和一些灵活负载,定制ASIC负责大规模优化推理。一个数据中心里,得同时跑着不同架构、不同散热要求、不同互联方式的芯片。这对部署和运维的专业能力要求,上了不止一个台阶。
目前在全球范围内部署这类设施的,Introl算是做得比较大的。他们在257个地点有550个专门做高性能计算的现场工程师,三年营收暴涨了9594%,上过Inc 5000榜单,最多时部署过十万颗GPU,铺设了超过四万英里的光纤。这种物理层面的部署经验,还真不是靠软件自动化就能取代的。
8. 不同角色的行动建议
最后给不同岗位的朋友整理几个关键点,照着这个思路走,能避开不少坑。
对基础设施规划师
第一,按异构来设计。电力、散热、组网,都得预留能同时容纳英伟达GPU和定制ASIC的空间。2026年之后,数据中心的标配就是多架构共存。
第二,提前为液冷做预算。任何超过700W的新芯片都必须上液冷。旧机房改造的造价比新建贵1.5到2.5倍,晚建不如早建。
第三,提前锁定产能。3nm缺口三倍,无论你采购的是GPU还是ASIC,交付周期都已拉长到12到18个月。如果目标是2027年部署,现在就得下commitment。
对运维团队
第一,准备新的管理工具。定制芯片有自己的一套监控、诊断和编排栈,和英伟达的DCGM/NVSMI完全是两码事,团队要提前培训。
第二,私有互联的维护流程。这和标准的以太网、InfiniBand维护流程不一样,得提前做好对应准备。
第三,接受混合散热环境。同一个数据中心里,可能会同时有空冷旧服务器、直液冷定制ASIC和浸没式冷却的英伟达集群,每套设备的维护流程都不同,需要提前梳理清晰。
对战略决策者
第一,预算如何分配? 英伟达在训练上的护城河虽然收窄,但依然稳固,预算就该这么分:训练买英伟达,发挥CUDA的灵活性价值;高吞吐的推理优先看定制ASIC,拼的是每token成本。
第二,盯紧20-30%这个份额阈值。如果到2028年,英伟达在推理市场的份额真掉到这个区间,整个定价逻辑都会重构。不要搞“全英伟达”绑定,提前布局多供应商策略。
第三,资本支出越早规划越好。2026年大几千亿的总投入,已经把芯片、网络、电力、散热整条供应链都绷紧了。任何决策延迟,都可能带来长达18个月的交付拖延。
9. 接下来会怎么走?
2026年只是拐点,远非终点。未来两三年,还有几个变量会加速这场变革:
第一,英伟达Vera Rubin的实际表现。如果真能兑现“5倍性能、成本降低90%”的承诺,那它确实能抢回一部分推理市场,减缓定制芯片渗透的速度。但关键看实际产能够不够,而不是纸面参数有多漂亮。
第二,HBM4的换代。Meta的MTIA v4和英伟达的Vera Rubin都已用上HBM4,带宽是HBM3e的两倍。率先适配新内存的芯片,将拿到下一代的性能优势,还卡在HBM3e上的则会陷入被动。
第三,OpenAI的定制芯片何时上量。OpenAI现在对英伟达和微软依赖度很高,但他们那几十万颗定制芯片一旦真的做出来了,将会引领整个行业跟进搞自研。
第四,台积电新产能。2027年底会逐步释放,缺口会有所缓解。同时,英特尔的18A代工方案也会给市场多一个选择,只是目前AI芯片设计厂商跟进得还不多。
说白了,AI加速器市场在2026年已经出现了一种任何厂商都难以控制的结构性分裂。
英伟达确实为整个大规模AI时代铺好了地基,CUDA至今仍是计算领域最重要的软件生态。但大规模推理的经济账,加上云厂商们想要把芯片成本掌握在自己手里的野心,已经不可逆转地将市场推向了一个多供应商的未来。未来十年的数据中心架构,正是由这个变化定义的。
无论组织规模大小,只要你部署AI基础设施,现在都不得不回答一个问题:在一个没有“单芯片赢家”的世界里,你该如何规划自己的路线?在云栈社区,我们持续追踪这类底层的技术趋势变迁,欢迎一起交流探讨。
参考:
https://introl.com/blog/custom-silicon-inflection-2026-hyperscaler-asics-nvidia-gpu