
一、Michael Burry 的 3 年预言与市场的 40% 反转
2025年11月,以成功预测2008年次贷危机闻名的“大空头”Michael Burry做出了一个引发广泛讨论的判断:看空英伟达。他的核心逻辑非常直接——GPU的生命周期通常只有2-3年,随着性能更强的新一代芯片(如Blackwell系列)推出,旧卡将迅速贬值,英伟达当前的高估值自然难以为继。
这个判断在当时虽然争议不小,但听起来并非全无道理。毕竟,科技行业的摩尔定律历来如此:新品上市,旧品过时。H100在2022年发布,按3年周期算,到2025年也该走下坡路了。
然而,市场在短短4个月后给出了截然相反的答案。
根据最新的GPU租赁市场数据,H100的一年期租赁价格从2025年10月的$2.35/小时/GPU,飙升至$3.28/小时/GPU,涨幅高达40%。这张已经“服役”近4年的显卡,非但没有贬值,反而出现了严重的供不应求——所有GPU类型的按需租赁容量均已售罄,直至2026年8-9月的新增产能也早已被预订一空。
市场的热度远超想象。客户正争相以$14/小时/GPU的价格抢购AWS的p6-b200现货实例;一些云服务巨头不再出售单节点;大量H100正以两三年前签约时的同等价格续约,部分合同甚至直接续签至2028年,长达4年。如今,想找到哪怕只有8个节点(64个GPU)的H100或H200集群都变得相当困难。行业调研显示,半数供应商的Hopper GPU产能已完全售罄,多数供应商直接回应称近期根本没有即将到期的产能。
市场上甚至出现了算力租户像在旅游旺季细分公寓一样,将自有集群拆分转租的现象。有人戏称:“云服务‘包租婆’的时代要来了。”
那么,Michael Burry到底错估了什么?他或许低估了一个关键的变量:Agent AI的爆发速度及其对算力需求模式的根本性重构。
二、Agent如何重新定义算力消耗
如果说2023-2024年属于大模型的“聊天机器人”(Chatbot)时代,那么2026年初由Claude Code等应用引爆的“龙虾热”,则标志着我们进入了一个全新的“智能体”(Agent)纪元。这不仅仅是需求的线性增长,更是使用模式的范式转移。
Token消耗的量级跃升
一线数据最能说明问题:
- Chatbot时代:单次对话消耗约500-2,000个tokens。
- Agent时代:完成单个任务可能消耗80,000-150,000个tokens。
这意味着消耗量跃升了40-75倍。
为何差异如此巨大?Agent导致token消耗暴增的背后,是三个核心机制在起作用:
-
多轮推理循环
Agent不再是简单的“一问一答”。它遵循“推理(Reasoning)→行动(Act)→反思(Reflect)”的循环链条,完成一个复杂任务往往需要多次调用大模型,每次调用都消耗大量tokens。
-
长上下文记忆
为保持任务连贯性,Agent需要“记住”所有历史操作。这意味着每次请求都必须将完整的任务上下文和历史记录再次喂给模型。随着任务进程拉长,看似简单的一个新指令,实际承载着巨量的上下文数据,导致token消耗呈量级增长。
-
多模态内容爆炸
在浏览器操作(browser-use)或电脑控制(computer-use)等场景中,Agent需要处理大量屏幕截图。一张高分辨率截图就可能消耗4,000-5,000 tokens。一个看似寻常的任务如果涉及数十次截图,token消耗便会呈指数级攀升。
若要为Agent对算力需求的冲击找一个标志性案例,Claude Code无疑是最佳代表。
来自业内的观察显示,一些深度整合AI工具的公司,在短短7天内就能消耗数十亿tokens,平均成本约为$5/M tokens。关键点不在于成本本身,而在于其带来的回报:所节省的时间与拓展的工作流能力,已远超这笔开销。这些公司如今部署的AI工具套装,覆盖场景远超早期的搜索和摘要,已延伸至仪表板构建、自动化爬虫、大规模数据整理乃至智能体驱动的金融建模等领域。
有预测称,到2026年底,Claude Code将占全球每日代码提交量的20%以上。
Anthropic的财务数据也印证了这一趋势:其年度经常性收入(ARR)在单个季度内从90亿美元飙升至250亿美元,增长近3倍。这种增长速度在企业软件史上极为罕见。
这一全球趋势在中国市场得到了充分验证。产业链数据显示:
- 中国每日token消耗:140万亿(工信部官方数据)
- 字节跳动单家日消耗:100万亿(2026年3月)
- 字节跳动2025年12月的日消耗:63万亿
这意味着字节跳动在3个月内token消耗增长了近60%。如果按此增速持续,全年数字将非常惊人。
行业对全年算力需求的判断是:增长30-50%。需要明确的是,token消耗增加五倍,并不意味着算力需求等比例增加五倍,因为推理效率在持续优化(例如千问3.5-Max的推理成本已大幅下降)。但即便只是30-50%的增长,在当前供应紧张的背景下,也足以成为推动价格上涨的强劲动力。
市场对B端落地的时间预期也已明确:传统预期是12个月,但从国内云厂商的产品就绪度来看,大概6-9个月左右就会在B端看到显著变化,预计在第三季度(Q3)左右涌现较多落地案例。
阿里云的“悟空”、腾讯云的“企业虾”、阿里国际的企业级Agent等产品均已就位。当企业在熟悉度提升、安全顾虑得到解决、幻觉率降低、任务完成率达到较好水平后,预计会积极采纳这些工具。
一旦B端需求全面释放,算力市场将迎来新一轮的冲击波。

三、涨价的双重逻辑
GPU租赁价格的上涨,表面看是供需失衡的结果,但深入分析会发现,全球市场与中国市场背后的涨价逻辑存在微妙而重要的差异。
全球市场:供应链成本的螺旋式上升
2026年初,整个AI供应链正经历一场“定价压力测试”:
- LPDDR5内存价格同比上涨约4倍
- DDR5内存价格同比上涨约5倍
- AI服务器的涨价幅度甚至超过了底层组件成本的增幅
为管理组件成本快速上涨带来的利润风险,服务器原始设备制造商(OEM)开始以显著超过成本增幅的水平重新定价AI服务器。这使得集群的资本投资过程变得复杂,因为更高的采购成本压缩了项目预期回报,迫使部分运营商放缓或放弃部署计划。实际上,本应投放市场的供应被暂时“扣留”,进一步加剧了租赁市场的紧张。
这种成本压力不仅来自内存。AMD、英特尔的CPU也在同步涨价,且预计不止一次。整个AI芯片供应链都处于紧张状态:台积电(TSMC)的N3逻辑晶圆产能紧张、HBM与DRAM内存短缺、NAND闪存供应存在瓶颈。
但成本只是一方面。更关键的是需求侧的投资回报率(ROI)得到了验证。行业观察显示:如果使用AI工具能带来5-10倍的ROI,那么在价格上涨到足以抑制需求之前,GPU租赁价格显然还有相当大的上行空间。
这意味着当前的需求曲线相对缺乏弹性——即使价格上涨,用户仍然愿意付费,因为他们获得的价值远超成本。简言之,当ROI高达5-10倍时,旺盛的需求会对服务器和组件成本产生持续的向上推力。
中国市场:主动的客户筛选策略
相比之下,中国云计算厂商的涨价逻辑则显得更加主动和策略化。来自产业链的观察表明,云厂商涨价的核心目的在于筛选客户,而非单纯转嫁成本。
其核心逻辑是:Claude等Agent产品的成功,已验证用户愿意为智能体能力付费。借此机会,云厂商旨在淘汰低价值用户、锁定高付费意愿的客户。
具体表现包括:
- 阿里云在3月20日取消了Lite版编程计划
- 仅保留200元/月及以上的付费套餐
- MiniMax等厂商的编程计划定价也维持在更高水平
这是一种典型的客户筛选行为——在算力紧缺的背景下,云厂商选择优先服务那些真正认可产品价值、愿意为之付费的客户,而非盲目追求用户规模的最大化。
一个关键数据揭示了内部现状:国内云厂商AI算力的输出,可能只有约20%的负载或token量是对外产生收入的,大部分算力仍被内部业务所消耗。
那么,在存在大量内部算力冗余的情况下,为何选择涨价而非增加供给?
短期原因:预判B端需求爆发
因为预见到B端需求可能在第三季度显著提升,所以提前进行价格调整。这是一种前瞻性的定价策略:与其等到Q3需求爆发时被动涨价(可能引发客户不满),不如现在就调整,让市场有一个适应期。
深层原因:验证并锁定付费意愿
Agent应用的爆发已证明了AI工具的高ROI,用户已从“尝鲜”阶段进入“依赖”阶段。在此节点涨价,可以有效区分高价值用户(认可价值、付费意愿强、使用高频)和低价值用户(价格敏感、使用低频、ROI不明确)。完成客户筛选后,云厂商可以更专注于服务高价值客户,从而提升整体盈利能力。
涨价的分层结构与长期周期
值得注意的是,此次涨价并非“一刀切”。头部云厂商近期的调价主要针对中小型客户和新签客户。大客户通常签有类似硬件采购的长期协议(长协),价格相对稳定。
这意味着涨价效应无法立即体现在收入端。但这种策略有其内在合理性:通过涨价筛选出高价值客户群体,同时为未来与大客户续约时的价格谈判做好铺垫。
市场主导力量已经发生了转移。GPU租赁提供商的话语权显著增强。新兴云服务商和超大规模云厂商现在处于主导地位——他们可以协商更有利的条款,如更高的预付款、更优的价格、更长的合同期限,甚至可以根据自身库存情况来挑选合同的起止日期。时间也站在他们一边,他们可以按自己的节奏规划部署,在不断上涨的价格环境中,为特定集群逐步构建最优的客户组合。
无论是全球市场还是中国市场,一个共识正在形成:这轮涨价并非短期波动,而是一个可能持续1-2年的周期性现象。

四、市场格局重塑:轻资产困境、大厂转向与战略窗口
在这轮涨价周期中,不同商业模式的参与者面临着截然不同的命运,整个算力市场的竞争格局正在被深刻重构。
聚合平台的利润困境
对于像“硅基流动”这类模型聚合平台,其自持算力比例通常低于40%,大量依赖第三方IDC供应商的机房租赁。在涨价环境下,这种轻资产模式正面临严峻挑战:
如果无法将成本上涨压力传导至上游API调用方或模型即服务(MaaS)客户,或者业务规模无法同步扩大,那么这些平台的利润空间将承受显著压力。
即便是OpenAI和Anthropic这样的头部玩家,虽然毛利率可能很高,但从整体收入与支出来看,可能尚未达到真正盈利的状态。这类MaaS平台可能会成为一种常态,在价格相对稳定的时期,通过收取路由费用与模型厂商合作,尚可良性发展。但在价格急剧上升的环境中,其生存空间确实会受到挤压。
大厂的自持算力战略转向
与轻资产平台形成鲜明对比的是,大型云厂商正在大幅提高自持算力的比例:
- 阿里云:已公开披露部署了大量自研的PPU(处理器)。
- 字节跳动:据传正在研发自研芯片,并采购了大量国产芯片。
这种战略转向的核心逻辑在于:在推理需求持续增长的背景下,通过设计更优的Prefill(预填充)和Decode(解码)分离架构,结合核心网络与软件技术优化,可以在长期总拥有成本(TCO)上实现更好的下降。这正是大厂在推理卡层面增加自持或采用自有芯片的主要原因。
从财务视角看,GPU租赁价格的上涨提高了云服务商的投入资本回报率(ROIC),通过提升已部署资本的利润率来实现。同时,更高的租赁价格也变相延长了现有GPU的经济使用寿命,这意味着资本在需要再投资之前,能够产生更长时间的现金流。
这正是Burry未能预见的一点:在需求持续旺盛的情况下,GPU的经济寿命不是缩短,而是被延长了。即使是H100这样的“老卡”,对于某些训练工作负载而言,依然能提供最佳的性价比,需求因此保持高位。
火山引擎的窗口期与两难选择
在主要云厂商纷纷涨价的背景下,火山引擎(字节跳动的云服务品牌)的策略选择尤为引人关注。火山引擎近年增长迅猛,营收从约100亿增长至2025年的200-250亿,但这种增长很大程度上得益于针对中小客户的低价策略,其在特定行业的深度理解(Know-how)不足,制约了对大型企业客户的渗透。
产业观察指出,若在此轮涨价潮中火山引擎坚持不跟进,这将是其切入大型企业市场的宝贵窗口期;但从长期看,持续的低价策略难以维系。最可能的路径是在其具备技术积累和行业理解的重点领域(如电商、内容)保持价格竞争力,而在其他领域则选择跟进市场涨价。
这揭示了一个战略两难:短期来看,竞争对手的涨价为火山引擎提供了以价格优势吸引大客户的机遇;但长期而言,持续低价会侵蚀利润,在算力成本普遍上升的背景下难以为继。差异化定价或许是其平衡短期机会与长期发展的理性选择。
五、这轮GPU涨价能持续多久?
要回答这个问题,我们需要聚焦于需求侧的三大核心驱动力。
驱动力一:B端需求尚未完全释放
Agent应用向企业端(B端)的传导预计将在第三季度(Q3)看到较多落地案例。目前的token消耗主要来自消费者端(C端)和“带有B端目的的C端用户”(如自媒体、个人开发者等)。当企业级应用开始大规模铺开时,需求将再上一个台阶。
目前,企业级Agent产品已准备就绪,主要卡点在于企业需要解决相关的安全顾虑(尤其是权限控制问题)。从产业咨询反馈看,许多企业对此态度积极,一旦安全问题得到妥善解决,将会积极采纳。
驱动力二:ROI的持续验证
使用AI工具能带来高投资回报率,这已成为一个被验证的事实——AI工具创造的价值,远超其使用成本。token需求曲线的整体上移和右移,为推高GPU租赁价格提供了一个强大且目前相对缺乏弹性的力量。
当ROI达到5-10倍时,价格的适度上涨不会显著抑制需求。这意味着从市场承受力角度看,涨价仍有空间。
驱动力三:新增产能被快速消化
市场范围内,直到2026年8月至9月计划上线的所有新增算力产能都已被预订一空。Blackwell芯片的交付周期也已延长至6-7个月,这得益于开源大模型需求的强劲以及推理需求的持续激增,大多数新集群在建成前就已“名花有主”。
更关键的问题浮现:新增的算力容量及其带来的token供应量,是会缓解持续的算力紧缩,还是会被更快速增长的新增token需求所吞噬?从当前趋势看,后者的可能性更大。
随着云服务商意识到供应紧缩和价格上涨,他们可能会在价格进一步上涨前抢先锁定更多硬件订单,这反而会进一步收紧供应并推高价格。这与2023-2024年的GPU短缺情形如出一辙,当时紧张的供应使OEM厂商能够实现超额利润扩张,并导致服务器价格急剧飙升。
这种“供应紧张→抢购→进一步推高价格和加剧紧张”的正反馈机制一旦形成,短期内很难被打破。
综合以上因素,结论指向一个明确的方向:在未来一段时间内,GPU租赁价格继续上涨的可能性,远高于下跌的可能性。对于开发者与企业而言,理解这一市场动态背后的深层逻辑,或许比单纯抱怨价格上涨更为重要。如果你对AI算力、云计算成本优化等话题有更深入的探讨兴趣,欢迎在技术社区进行交流。