2026年5月2日,SemiAnalysis发布了一份最新的研究报告,揭示了一个关键趋势:大模型厂商Anthropic的毛利率已飙升至70%,但掌握稀缺算力资源的上游巨头英伟达和台积电,在定价上却按兵不动。
根据SemiAnalysis的数据,Anthropic的ARR(年化运营收入)在不到一个月的时间里,从300亿美元(4月7日数据)猛增至440亿美元。更引人注目的是,其毛利率从38%跃升至70%以上,一举打破了大模型厂商“增收不增利”的反规模经济魔咒。
反观英伟达和台积电,即便坐拥利用率超100%的产线和近乎垄断的产能,其定价策略几乎没有变化。
这幅图景,与三十年前互联网革命走过的路惊人相似:价值链的重心,正开始从上游向下游迁移。
20世纪90年代末,PC互联网时代爆发,英特尔和微软几乎垄断了整个价值链的上游。但在随后的二十年里,价值不断地从硬件层,向更下游的软件、平台和应用层转移。从卖CPU的英特尔,到卖操作系统的微软,再到卖搜索的谷歌、卖社交的Facebook,每一轮迁移,都让更贴近用户的下游玩家攫取了更大的价值份额。
今天,AI产业链似乎正沿着同一轨迹前进。唯一的不同是,这次的演进速度更快。
上游的黄金时代:2023-2025
硬件层通吃
2023年5月,英伟达一纸季报引爆市场,盘后股价跳涨25%。随后的三年里,AI的价值链几乎完全沉淀在基础设施层。
| 年份 |
价值猎手 |
表现 |
| 2023 |
英伟达 |
首次炸裂财报,盘后跳涨25%,全年上涨239% |
| 2024 |
电力公司(Vistra、GE Vernova) |
标普500表现最佳,分别上涨265%和146% |
| 2025 |
内存厂商(SanDisk、Micron等) |
集体上涨200%以上 |
市场逻辑非常简单:谁掌控了算力,谁就掌控了AI。那时,早期大模型厂商的毛利率普遍为负。ChatGPT在当时很多人看来,不过是“稍好一点的Google搜索”外加“吉卜力风格的自拍生成器”。不少人认定AI就是一场泡沫,永远无法兑现那数千亿美元的资本支出。
这个阶段的特征,与PC时代的早期极为相似。1980年代,IBM统治着整个PC产业链。那时没人能想到,三十年后,一家卖搜索引擎的公司市值会是IBM的十倍。
转折:Agentic AI改变了一切
2025年12月:拐点到来
2025年12月之前,AI主要是一个“对话工具”(chatbot)。在此之后,Agentic AI(以标志性产品OpenClaw为代表)开始真正发挥作用。Agentic AI的核心突破在于:它不再只是回答问题,而是能独立完成复杂任务。简单说,AI开始化身为数字员工。
以SemiAnalysis自身的实践为例,他们用AI完成了过去需要初级分析师耗费数小时才能完成的工作:
- 将Excel模型自动转换为可视化面板
- 为所有笔记自动创建图表
- 构建财务模型并分析公司收益
Token经济学的重构
当AI进化为劳动力,token的价值便开始取决于它能“替代多少人力”的经济价值。
- SemiAnalysis在AI tokens上的年化支出,已达到员工薪酬的30%。
- 每位员工每月平均消耗近50亿tokens。
- 部分员工每月的消耗量甚至超过1000亿tokens。
Agentic场景下的成本结构也在发生变化。Anthropic的Opus 4.7标价为输入$5/百万tokens、输出$25/百万tokens。但在Agentic工作负载中,由于极高的输入输出比(300:1)和超过90%的缓存命中率,实际混合价格仅为$0.99/百万tokens。
SemiAnalysis认为,用户为每百万tokens支付的实际金额可能只有1美元,而这1美元所创造的价值,或许等同于100美元的人力工资。
成本的断崖式下降
与此同时,token的生产成本正经历断崖式下跌。以下数据源自SemiAnalysis的测算。
首先是软件优化带来的14倍吞吐量提升:
- 无优化时:吞吐量约为1,000 tokens/秒/GPU
- 加上wideEP + disagg优化:吞吐量上升至8,000 tokens/秒/GPU
- 再加MTP:吞吐量再次上升至14,000 tokens/秒/GPU
其次是更为剧烈的硬件代际跃迁:
- 最优化的GB300 NVL72,在FP8下吞吐量比最优化的H100高出17倍。
- 若切换到FP4,这个差距会跃升至32倍。
- 而单GPU的总拥有成本仅高出约70%。
成本在暴跌,但用户愿意支付的价格并未同等幅度地暴跌,因为token所创造的价值反而在上涨——从简单对话变成了自动完成工作。这一价格与成本之间的剪刀差,正是驱动大模型公司利润率飙升的根本原因。
回看历史:PC互联网的价值链迁移
英特尔:从价值链顶端到被超越
1990年代,英特尔是整个PC产业链中最有价值的公司。“Intel Inside”曾是那个时代最牛的广告词。2000年,英特尔市值达到5000亿美元的峰值。但到了2024年,其市值已不足微软的十分之一。原因并非英特尔失去了制造能力,而在于制造能力本身在产业链中的价值占比持续下降。
微软:从操作系统到云服务
2000年,微软的核心是卖Windows操作系统和Office软件,这是PC时代的平台层,占据着价值链中最肥美的位置。但微软没有固守于此,它主动向下游迁移:先向企业应用层进军(Dynamics、LinkedIn),再向云计算层转型(Azure),最终进入AI模型层(与OpenAI合作、推出Copilot)。2024年,微软市值超过3万亿美元,其中很大一部分来自Azure和AI服务,早已不再依赖Windows和Office的授权收入。
谷歌、Facebook、亚马逊:下游的价值爆发
谷歌、Facebook、亚马逊的崛起,是下游价值爆发的最佳例证。它们不生产芯片,不制造服务器,也不拥有操作系统,但它们占据了价值链的最终端——用户界面。搜索引擎、社交网络、电商平台,这些离用户最近的应用,最终捕获了产业链中最大的价值。
AI价值链迁移:速度更快
虽然不像SemiAnalysis所说的“AI一日,互联网一年”那样夸张,但AI时代的发展速度确实远快于PC和互联网时代。回顾历史:
- PC时代从硬件主导到软件主导,花了约15年(1985-2000)。
- 互联网时代从基础设施到应用爆发,花了约10年(1995-2005)。
- 移动互联网从硬件到平台再到应用,花了约8年(2007-2015)。
- 而在AI时代,大模型实验室的崛起仅用了不到3年。
为什么上游不涨价?
当前,台积电N3的利用率预计在2026年下半年超过100%,DRAM工厂也已运行在90%以上的利用率,AI算力需求远超供应。在这种典型的卖方市场环境下,大多数公司都会选择涨价。但英伟达和台积电没有,背后主要有三点考量:
- 反垄断压力:英伟达正面临越来越多的反垄断审查,台积电也有类似的顾虑。
- 维护下游生态:如果把产业链利润全部吸走,下游生态长期无利可图,就会失去创新积极性,也难以融到资。Anthropic、OpenAI都在筹备IPO,预留一部分利润有助于让资本游戏持续下去。
- 避免为竞争对手培植土壤:过高的利润率会坚定下游客户转向替代方案的决心。目前谷歌TPU、亚马逊Trainium的扩张速度很快。如果英伟达保持过高利润率,只会让下游更坚定地拥抱它们。并且,近期有消息称,Anthropic除了采购英伟达、谷歌、亚马逊的芯片,还在洽谈购买一家英国公司的AI芯片。
下游的崛起:最先进的模型厂商开始掌握定价权
SemiAnalysis给出了一个清晰的论断:“顶尖模型提供商的低毛利率时代已经结束。Agentic AI永久地提高了token的价值,且这一趋势不可逆转。”
模型厂商为何现在拥有了定价权?
- 开源难以替代闭源:无论跑分多高,开源模型在实际工作中仍明显落后于最先进的闭源模型。例如,Kimi K2.6($0.95/百万tokens输入,$4/输出)的定价,对Opus几乎没有产生影响。
- 供不应求的市场格局:Anthropic已开始将Claude Code锁定在每月100美元以上的订阅价格,主动摒弃了部分市场。Token需求在可预见的未来都将远超供应。
- 用户支付意愿由价值决定:当token的能力从“回答问题”变为“完成工作任务”,用户的支付意愿便不再由“替代搜索”决定,而是由“替代人力”决定。SemiAnalysis的token支出已达员工薪酬的30%,这就是最好的证明。
总而言之,表象是算力供不应求,但本质是算力所产出的“智能”供不应求。AI的价值链,已经正式开始向掌握最前沿模型的厂商迁移。
身处这个技术变革的时代,如何在海量信息中快速建立起自己的知识体系,是每个技术人和投资者都需要思考的问题。在 云栈社区,你可以找到关于AI模型演进、算力趋势、技术架构等深度讨论,与众多开发者和行业观察者一同交流,在信息洪流中保持清晰判断。