你可能想象不到,全球企业花大价钱买来的GPU,每天有95%的时间在晒太阳。
根据Cast AI最新发布的2026年Kubernetes优化报告,在测量了真实生产集群后,他们发现大多数企业的GPU利用率只有5%。
5%是什么概念?Cast AI联合创始人Laurent Gil给了一个更直观的对比:如果你什么都不干,让GPU自己跑,平均利用率也能达到30%左右。企业们花了高价买来的“核武器”,实际效率只有“躺平模式”的六分之一。
而且这个糟糕的数字,还在恶性循环里越陷越深。
FOMO:一切荒诞的起点
先解释一下这5%是怎么来的。
故事通常是这样的:某家企业需要GPU做AI模型。HR开始招人,算法工程师到位,模型代码写完——然后发现,得找云服务商要GPU。
打电话过去,对方说:“你申请了48张,我这里有36张。你要不要?不要的话,后面还有五家公司排队。”
要,还是不要?
不要,下个月可能一张都拿不到。要,好歹先囤着。
于是合同签了,36张H200,三年期。价格?比按需贵不了多少,但至少“有”了。
这36张GPU,模型训练可能只需要8张。剩下的28张怎么办?
答案是:放着。
因为如果现在释放出去,将来想要回来,可能要等三个月到半年。谁也不想成为“那个交还了GPU、后来又要不回来”的团队。
这就是FOMO(错失恐惧症)在企业界的经典演绎。个人层面的FOMO是“别人赚了一个亿我不能错过”,企业层面的FOMO是“别人有GPU我没有,明年模型就上线不了”。
于是,每个企业都选择最“安全”的做法:多买,少用,宁可浪费,不敢放手。
价格暴涨的真相
这种集体行为的后果,直接体现在了价格上。
2026年1月的一个周六,AWS悄无声息地把预留H200 GPU的价格提高了约15%。没有公告,没有解释。
这是自2006年AWS推出EC2以来,超大规模云服务商第一次上调预留GPU价格。
过去二十年,“云服务越来越便宜”是科技行业的铁律。每年都有新折扣,每年都更划算。但这个规律,在GPU这件事上,被打破了。
为什么会这样?因为GPU市场已经悄然分裂成两个世界:
在商品层,H100的按需价格从2025年9月的每GPU小时7.57美元,降到现在的3.93美元。Lambda Labs和RunPod甚至挂出了低于3美元的价格。A100更是跌到了1.92美元。T4芯片在AWS多个区域的24小时可用率超过90%——曾经一芯难求,现在随便挑。
但在前沿层,完全是另一番景象。Nvidia收到了2026年200万颗H200芯片的订单,但库存只有70万颗。TSMC的先进封装产能在2027年中期之前都被订满了。AMD也发出警告,2026年价格还要涨。連A100的价格都在反弹——原本以为三年期合同到期后会降价,结果需求太旺盛,又涨回来了。
富的越富,穷的越穷。 在前沿层抢不到GPU的企业,只能去商品层抢老芯片;在前沿层抢到GPU的企业,又舍不得放开——于是前沿层更挤,商品层更空。
浪费的两道闸门
5%的利用率,问题出在哪里?
Cast AI的数据显示,浪费来自两道闸门:
第一道闸门是采购环节。 企业因为FOMO而过度采购,签了多年合同不敢释放。这部分浪费,业内早就心知肚明。
第二道闸门藏在技术架构里。 Anyscale(Ray框架的母公司)在2026年1月发布的分析中指出,现代AI工作负载即使在集群规模“刚刚好”的情况下,GPU利用率也经常低于50%。
为什么?因为一个典型的AI训练任务要经过三个阶段:CPU密集型(加载数据、预处理)、GPU密集型(训练或推理)、再回到CPU。每个阶段占用的硬件资源不同,但传统做法是把它们塞进同一个容器里——于是GPU在等CPU的时候,只能空转。
Gartner在2025年11月的研究报告给出了同样的诊断:建议企业把提示处理(CPU-bound)和token生成(GPU-bound)分开运行在不同硬件上。Nvidia自己的Dynamo推理框架,底层逻辑也是这个。
两道闸门同时开着,再多的GPU也不够漏。
谁在闷声发大财
这场混乱中,有人倒霉,就有人偷着乐。
闷声发大财的第一类:专业的GPU云厂商。
CoreWeave、Lambda、RunPod、GMI这些“新生代云厂商”,H100价格普遍在1.99到3.99美元之间,比AWS、Azure这些传统巨头便宜40%到70%。它们没有历史包袱,灵活调度,定价激进,专门收割那些被巨头伤透了心的企业。
闷声发大财的第二类:去中心化市场。
Vast.ai、io.net、Aethir这些平台,GPU价格经常低于1美元。虽然质量参差不齐,但“穷得只剩GPU”的工作负载(比如实验性训练、非关键推理)完全可以在这些平台上跑,成本忽略不计。
最惨的是谁?
是那些既不敢用新生代云厂商(担心稳定性),又舍不得放弃巨头合同(担心将来抢不到资源),于是两边都沾一点、两边都用不好的企业。
这类企业往往占大多数。
怎么打破困局
说了这么多问题,总得给条活路。
Cast AI的报告列了五条“不花钱”就能提高利用率的建议:
第一条,持续动态调整,别搞一次性配置。 资源需求六个月后通常会变,但大多数企业的配置是部署时定好的,之后再也没人管。Karpenter、OpenCost、Kubecost这些开源工具可以自动做这件事。Cast AI自己客户的CPU资源配置,平均优化了50%。
第二条,把T4这类老芯片用在合适的地方。 Cast AI的数据显示,T4在spot实例中的中断风险在不同区域差异巨大:西欧有些区域24小时中断率只有10%,但德国和美国东部某些区域高达80%。选对区域,就是选对可靠性。
第三条,用MIG和时间分片共享GPU。 Nvidia的MIG技术可以把一张A100、H100或H200拆成多个独立实例。vLLM和Dynamo支持连续批处理和分离式推理。这些都是开源的,不需要买任何新产品。
第四条,解耦CPU和GPU。 Ray框架允许CPU密集型的数据准备和GPU密集型训练独立扩展。这是Anyscale自己推荐的做法,Canva用这个方法把分布式训练的GPU利用率拉到了接近100%,云成本降了50%。
第五条,定期重新平衡预留实例。 预留实例和Savings Plan会随着工作负载变化而过时。Cast AI、nOps、Vantage这些工具可以自动监控实际用量和预留量的差距,动态调整。
一个反直觉的建议
报告里最让我意外的建议,来自Cast AI的Laurent Gil:
“你真的需要H200吗?”
H200的设计场景是超大规模模型(700亿参数以上)和超长上下文(128k tokens以上)。它的141GB显存(几乎是H100的两倍),在这种场景下是刚需。但如果你的模型只有几十亿参数,H100就够了——按小时算便宜40%。如果你的推理做了量化优化,A100可能都够用——再省60%。
很多企业买H200,不是因为模型需要,而是因为“刚好排到了”。
这是FOMO最讽刺的一面:企业花大价钱买最新款芯片,然后让它95%的时间闲置。买的越贵,浪费越狠。
Gil的原话是这么说的:“在80%利用率下,B200确实比A100的单位token成本更低。但在5%利用率下,算术刚好反过来。”
最贵的配置,是用最高端的芯片,跑最低的利用率。
结尾
这份报告最让我感慨的,是它揭示了一个残酷的真相:
企业不是没有能力提高GPU利用率,而是没有勇气。
释放闲置GPU是提高利用率最直接的办法。但释放意味着风险——将来要不到怎么办?所以没人愿意当第一个松手的人。于是大家一起攥着,一起浪费,一起涨价,一起后悔。
这是经典的囚徒困境。每个人都在做“对自己最安全”的选择,但所有人的选择加在一起,制造了最大的不安全。
打破这个循环的办法只有一个:把采购和运行当作同一个问题来对待,而不是两个独立的预算项。
前者负责“别买多了”,后者负责“别浪费了”。只解决其中一个,另一边的漏洞会一直漏。
2026年,企业们是该认真问一下自己:那些价值几百万的GPU,到底是在创造价值,还是在创造焦虑?
【锐评】:5%的利用率是FOMO的代价,是企业集体焦虑的具象化。打破这个循环需要的不是更多GPU,而是——承认自己可能不需要那么多。
参考链接:
https://venturebeat.com/infrastructure/fomo-is-why-enterprises-pay-for-gpus-they-dont-use-and-why-prices-keep-climbing