云栈社区»论坛 › 站务中心「 Forum Service 」 › 2000亿美元押注AI基建，AWS如何凭自研芯片与双模型绑定逆袭 ...

发回帖发新帖

4218 积分	0 好友	554 主题

发消息

2000亿美元押注AI基建，AWS如何凭自研芯片与双模型绑定逆袭

发表于 2026-5-19 20:19:02 | 查看: 92| 回复: 0

去年秋天，Bernstein的一位分析师给AWS下了个定论：AI竞赛垫底。理由很硬——云增速不如微软和Google，Nvidia的GPU拿得不够多。在大模型训练这个军备竞赛里，亚马逊看起来完全不在牌桌上。

华尔街喜欢简单叙事。微软绑定了OpenAI，Google有自己的Gemini和TPU，AWS呢？好像什么都没有。就连地理位置上的面子都丢了——微软的Azure在同处Puget Sound湾区，增速却压着AWS跑，西雅图科技王座易主的说法不胫而走。

但半年过去，剧情翻转的幅度超出了大多数人的预期。

今天的AWS，同时拿下了OpenAI和Anthropic两张船票，手握2000亿美元基础设施投资计划，自研芯片业务年化收入突破200亿美元且三位数增长，还完美避开了Musk诉Altman这场年度科技大审判的漩涡。最新一期《华尔街日报》的长篇报道标题说得很直白：亚马逊从AI陪跑变成了真正的竞争者。

这不是一个逆袭故事。这是一个被误读了两年的长线布局终于浮出水面。

而理解这个布局的深层逻辑，对所有在AI赛道做配置的投资人来说，可能比追下一个模型发布会更重要。

一封2018年的内部邮件，揭示了AWS的真实分量

要理解AWS今天的位置，有一个细节不能跳过。

正在旧金山进行的Musk诉Altman案中，微软的内部文件被公开了。其中一封2018年的备忘录来自微软CTO Kevin Scott，大意是：如果微软不资助OpenAI，他们可能会跑去亚马逊，然后一路骂着Azure离开。

2018年。那时候ChatGPT还不存在，transformer论文才发表一年，整个AI行业离“全民话题”还有四年的距离。但微软的高管已经在担心——如果不抢先下注OpenAI，AWS会把这张牌拿走。

这封邮件说明了一件被市场长期忽视的事实：在AI的早期筹码分配中，AWS从来都不是旁观者，而是所有玩家心里的“假想敌”。

微软最终投了OpenAI，很大程度上就是因为不想让亚马逊得到它。这种恐惧驱动的决策，反过来证明了AWS在云计算领域的统治力有多深——深到竞争对手必须用数十亿美元的投资来对冲“万一AWS拿到了最好的AI模型”这个风险。

八年后，微软最担心的事情真的发生了。只是不是以“AWS抢走OpenAI”的方式，而是以更彻底的方式——AWS同时拿到了OpenAI和Anthropic。

十年前的一笔3.5亿美元收购，成了今天的胜负手

2015年，亚马逊花了大约3.5亿美元收购了以色列芯片设计公司Annapurna Labs。那时候没有任何科技媒体把这当成头条。AI还远不是今天的全民焦虑，cloud computing本身才刚进入主流企业的采购清单。

但这笔不起眼的收购，成了AWS整个AI战略的基石。

Annapurna团队先做出了Graviton——用于通用计算的自研CPU，帮AWS客户降低成本、减少能耗。然后是Inferentia（推理芯片）和Trainium（训练芯片）。三条产品线，覆盖了AI计算从训练到推理的完整链条。

当所有人都在排队等Nvidia的GPU时，AWS在悄悄自建供应链。

这不是说Nvidia不重要。恰恰相反，Nvidia的GPU到今天仍然是训练前沿大模型的绝对主力。但AWS的逻辑不是“替代Nvidia”，而是“我不能把命运全部交给一个供应商”。尤其是当这个供应商的产能全世界都在抢、交期动辄排到一年以后的时候。

今年Q1，AWS披露芯片业务（Graviton + Trainium + Nitro）年化收入超过200亿美元，增速是三位数。CEO Andy Jassy在4月的股东信里透露了一个更生猛的细节：有两个大客户想包下AWS全部的Graviton产能，被他拒绝了——因为要保护其他客户的供给。

一个云服务商的自研芯片被客户抢着要，抢到需要限购。这个画面本身就是最好的产品验证。

而且这个趋势在加速。上个月Meta刚签了一个数十亿美元级别的Graviton5大单。Apple的AI团队早在2024年就公开点名表扬过Graviton和Inferentia的表现。AWS自研芯片的客户名单，正在从“内部消化”变成“外部争抢”。

Jensen Huang的坦白，揭开了一种全新的商业模式

今年4月15日，Jensen Huang上了Dwarkesh Patel的播客，录了一期将近两小时的长对谈。这期节目在24小时内拿到了几十万播放量，因为Jensen说了几段在财报电话会议上绝对不可能出现的话。

最核心的一段是关于Anthropic的。

Jensen承认，Nvidia当年没能在Anthropic早期就投进去，是他的战略失误。那时候他觉得AI实验室就应该去找VC融资，没意识到Anthropic要做的事情，规模远超任何VC基金能承载的范围。OpenAI也一样。这种级别的AI实验室，从诞生之日起就需要芯片供应商自己下重注。

然后他说了一句被整个行业反复引用的话：“没有Anthropic，Trainium凭什么增长？百分之百是Anthropic。TPU也一样，百分之百是Anthropic。”

Jensen的本意是替Nvidia辩护——他想说Anthropic是个孤例，不代表趋势，自研芯片对Nvidia没有系统性威胁。

但如果你换一个角度听这句话，它揭开的是一种全新的AI基础设施商业模式的底层逻辑。

Google投Anthropic数十亿美元，Anthropic的训练跑在TPU上。AWS投Anthropic，Anthropic用Trainium。亚马逊又拿出500亿美元投OpenAI，OpenAI承诺消耗2GW的Trainium产能，覆盖Trainium3和下一代Trainium4。

这不是传统意义上的客户-供应商关系。

这是“股权换算力”——用资本投入锁定算力消耗，用算力消耗反哺芯片迭代，用芯片迭代吸引更多客户。 一个自我强化的飞轮。

Jensen说他当年没有能力开这种支票。这句话的潜台词是：在AI基础设施这场竞赛里，决定谁用谁家芯片的，不是benchmark跑分，而是资本结构。Google和AWS之所以能让Anthropic跑在自研芯片上，不是因为TPU和Trainium在每个指标上都赢过Nvidia，而是因为它们愿意同时当投资人和供应商，把股权和算力打包成一笔交易。

这是纯硬件公司做不到的事情。也是AWS作为云厂商的结构性优势。

同时握住OpenAI和Anthropic，这步棋的含金量远超表面

今年2月，亚马逊宣布向OpenAI投资500亿美元（首批150亿美元，剩余在满足条件后跟进），OpenAI承诺将算力需求大规模迁移到AWS。4月27日，OpenAI和微软重新谈判了合作关系，微软不再拥有模型的独家分发权。第二天，OpenAI的模型就登陆了AWS的Bedrock平台。

GPT-5.4已经可以在Bedrock上预览使用，GPT-5.5即将上线，Codex代码智能体也一并入驻。

时间线很微妙。Musk诉Altman案开庭的当天，亚马逊和OpenAI的高管们正在庆祝合作发布。一个在法庭上围绕OpenAI的过去吵得不可开交，另一边在为OpenAI的未来举杯。

与此同时，Anthropic早已是AWS生态的深度原住民——超过一百万颗Trainium2芯片在运行，Project Rainier超算集群持续扩建，十年内承诺消耗1000亿美元的AWS算力。今年4月被证实的消息是，Anthropic最新的前沿模型Mythos是在Trainium上完成预训练的——这是历史上第一次有顶级AI实验室在非Nvidia芯片上完成了真正意义上的前沿级预训练。

AWS现在的位置，是全球唯一同时深度绑定OpenAI和Anthropic的云厂商。

这个位置的战略价值，比大多数分析师意识到的要大得多。

对企业客户来说，选择AWS意味着不需要在OpenAI和Anthropic之间站队——两个都能用，而且跑在同一套基础设施上，同一套安全、合规和成本管理体系。你想用Claude做内部知识管理，用GPT做客户服务，全在Bedrock里切换，不需要维护两套云环境。

微软有OpenAI但没有Anthropic。Google有Anthropic但和OpenAI的合作还在“研究怎么合作”的阶段。只有AWS，两边的票都攥在手里。

这种“模型中立、基础设施通吃”的定位，本质上是把AWS从一个“卖算力的”重新定义成了AI时代的operating system——不做模型，但所有模型都跑在我上面。

Inference时代来了，这才是自研芯片价值真正爆发的时刻

训练大模型需要最猛的GPU集群，这是Nvidia的主场，短期内没有人能动摇。但AI从实验室走向商业落地，计算需求的重心正在从training向inference大幅迁移。

Inference是什么？就是把训练好的模型部署到真实业务场景里，处理每一个用户的每一次提问、每一条翻译请求、每一张图片识别。如果说训练是造火箭，inference就是运营航线——频次高、成本敏感、能耗敏感、延迟敏感。

而这些特征，恰好是AWS自研芯片Graviton和Trainium从第一天就在优化的方向。

Graviton的设计哲学是用ARM架构实现更低能耗下的更高throughput。Trainium的下一代产品Trainium4（预计2027年量产）将大幅提升FP4计算性能和内存带宽。它们不需要在每个benchmark上都打败Nvidia的Blackwell，只需要在inference这个最大规模的商业化场景里，提供更好的性价比。

这也是为什么Intel的股价最近出现反弹——市场开始意识到，inference时代的芯片需求结构和训练时代完全不同。不再是“谁的单芯片性能最强”的比拼，而是“谁在万级、十万级芯片集群上的总体拥有成本最低”的较量。Nvidia不可能在这个战场上一家通吃。

AWS 2025年的实际资本开支达到1318亿美元，同比增长近60%。2026年计划加码到2000亿美元，绝大部分投向数据中心、网络设备和自研芯片产能。这个数字超过了Google和微软。

自由现金流确实在承压——从380亿美元骤降到110亿美元左右。但AWS的Q4运营利润率达到了35%，单季度运营利润125亿美元。需求端，Jassy说“产能装好多快就能卖出去多快”。2025年新增了近4GW的数据中心容量，计划到2027年底再翻一倍。

这不是一个在赌博的公司。这是一个看到了确定性需求曲线、正在以最大速度铺设轨道的公司。

AI叙事降温，反而利好AWS

WSJ这篇报道还抓住了一个容易被忽略的信号：AI行业的公共叙事正在降温。

过去一年，AI的公共讨论充斥着末日色彩。机器人替代人类、大规模失业、新一轮大萧条——这些说法吸引了眼球，但也搞得普通消费者和企业决策者都很紧张。Altman自己在旧金山的房子被人纵火之后，公开呼吁要“降低AI讨论的火药味”。OpenAI总裁Greg Brockman最近在播客里也说，大语言模型这条技术路径比之前预想的要乐观得多。

但AWS的负责人Matt Garman一直保持着不一样的基调。他不搞恐慌叙事，不预测AI末日，反而是整个行业里最早坚持“AI会创造新岗位和新价值”这个说法的人之一。这种态度以前显得“不够有话题性”，现在看来是对的。

当最激进的AI推动者开始降温，最务实的AI建设者反而获得了话语权。

AWS的优势就在这里——它不需要说服投资人“AI要改变世界”，它只需要卖给企业客户一个事实：你的AI应用跑在我这里，成本最低、最安全、模型选择最多。

这是一个从“卖愿景”到“卖工具”的产业转折点。当AI从投资人的兴奋剂变成企业的生产资料，最终受益的一定是基础设施层的玩家。而在这个层面，AWS手里的牌——自研芯片、双模型生态、全球数据中心网络、十几年的企业客户信任——比任何人都厚。

“愿意被误解”的人，最终定义了游戏规则

最后说说Matt Garman这个人。

他在亚马逊实习时加入了AWS，研究生毕业后直接成为AWS的第一任产品经理。从一个nobody到2024年接任AWS CEO，他完整经历了AWS从“亚马逊的副业”到“亚马逊最赚钱业务”的蜕变。

WSJ报道里有一个细节：当外界都在质疑AWS的AI战略时，Garman并不着急反驳。他引用了贝索斯的那句老话——如果你想创新，就必须愿意被误解。

这种态度不是公关话术。AWS当年就是这样走过来的。一个卖书的公司说要做云计算，整个行业都觉得是笑话。直到AWS变成了全球最大的云服务商，笑话变成了商学院案例。

今天的自研芯片、模型中立平台和AI基础设施巨额投入，是同一个剧本的新一幕。甚至连被质疑的节奏都一模一样。

市场对AWS的重新认知才刚刚开始。以前的叙事是“AWS在AI竞赛中落后”，现在正在切换成“AWS可能是基础设施层最聪明的布局者”。但Garman自己也很清醒，前面的路还很长。2000亿美元花下去，回报周期是以年为单位的。自研芯片要持续在性能和成本上证明自己。与OpenAI和Anthropic的关系需要持续经营，不能只靠股权绑定。

不过有一点我越来越确信：AI竞赛的决胜局不在模型层，在基础设施层。

谁拥有最大规模、最低成本、最灵活的算力底座，谁就握住了AI商业化的定价权。模型会迭代，会被开源，会被追平。但数据中心、芯片产能、全球网络——这些东西不是18个月就能复制的。

从这个角度看，AWS这手牌，比华尔街之前以为的好得多。

这一话题在云栈社区上也引发了不少技术人的深入讨论，不妨去看看不同视角的思考。

上一篇：Java工程师必读：从Demo到生产级，详解Spring AI RAG知识库实战
下一篇：WordPress博客数据安全加固实战：从本地备份到OSS自动上传

AWS, 自研芯片, Trainium, 云计算, AI基础设施