4376 积分	0 好友	633 主题

发消息

GPU闲置率达95%：你真的需要H200吗？

发表于 2 小时前 | 查看: 3| 回复: 0

你可能想象不到，全球企业花大价钱买来的GPU，每天有95%的时间在晒太阳。

根据Cast AI最新发布的2026年Kubernetes优化报告，在测量了真实生产集群后，他们发现大多数企业的GPU利用率只有5%。

5%是什么概念？Cast AI联合创始人Laurent Gil给了一个更直观的对比：如果你什么都不干，让GPU自己跑，平均利用率也能达到30%左右。企业们花了高价买来的“核武器”，实际效率只有“躺平模式”的六分之一。

而且这个糟糕的数字，还在恶性循环里越陷越深。

FOMO：一切荒诞的起点

先解释一下这5%是怎么来的。

故事通常是这样的：某家企业需要GPU做AI模型。HR开始招人，算法工程师到位，模型代码写完——然后发现，得找云服务商要GPU。

打电话过去，对方说：“你申请了48张，我这里有36张。你要不要？不要的话，后面还有五家公司排队。”

要，还是不要？

不要，下个月可能一张都拿不到。要，好歹先囤着。

于是合同签了，36张H200，三年期。价格？比按需贵不了多少，但至少“有”了。

这36张GPU，模型训练可能只需要8张。剩下的28张怎么办？

答案是：放着。

因为如果现在释放出去，将来想要回来，可能要等三个月到半年。谁也不想成为“那个交还了GPU、后来又要不回来”的团队。

这就是FOMO（错失恐惧症）在企业界的经典演绎。个人层面的FOMO是“别人赚了一个亿我不能错过”，企业层面的FOMO是“别人有GPU我没有，明年模型就上线不了”。

于是，每个企业都选择最“安全”的做法：多买，少用，宁可浪费，不敢放手。

价格暴涨的真相

这种集体行为的后果，直接体现在了价格上。

2026年1月的一个周六，AWS悄无声息地把预留H200 GPU的价格提高了约15%。没有公告，没有解释。

这是自2006年AWS推出EC2以来，超大规模云服务商第一次上调预留GPU价格。

过去二十年，“云服务越来越便宜”是科技行业的铁律。每年都有新折扣，每年都更划算。但这个规律，在GPU这件事上，被打破了。

为什么会这样？因为GPU市场已经悄然分裂成两个世界：

在商品层，H100的按需价格从2025年9月的每GPU小时7.57美元，降到现在的3.93美元。Lambda Labs和RunPod甚至挂出了低于3美元的价格。A100更是跌到了1.92美元。T4芯片在AWS多个区域的24小时可用率超过90%——曾经一芯难求，现在随便挑。

但在前沿层，完全是另一番景象。Nvidia收到了2026年200万颗H200芯片的订单，但库存只有70万颗。TSMC的先进封装产能在2027年中期之前都被订满了。AMD也发出警告，2026年价格还要涨。連A100的价格都在反弹——原本以为三年期合同到期后会降价，结果需求太旺盛，又涨回来了。

富的越富，穷的越穷。 在前沿层抢不到GPU的企业，只能去商品层抢老芯片；在前沿层抢到GPU的企业，又舍不得放开——于是前沿层更挤，商品层更空。

浪费的两道闸门

5%的利用率，问题出在哪里？

Cast AI的数据显示，浪费来自两道闸门：

第一道闸门是采购环节。 企业因为FOMO而过度采购，签了多年合同不敢释放。这部分浪费，业内早就心知肚明。

第二道闸门藏在技术架构里。 Anyscale（Ray框架的母公司）在2026年1月发布的分析中指出，现代AI工作负载即使在集群规模“刚刚好”的情况下，GPU利用率也经常低于50%。

为什么？因为一个典型的AI训练任务要经过三个阶段：CPU密集型（加载数据、预处理）、GPU密集型（训练或推理）、再回到CPU。每个阶段占用的硬件资源不同，但传统做法是把它们塞进同一个容器里——于是GPU在等CPU的时候，只能空转。

Gartner在2025年11月的研究报告给出了同样的诊断：建议企业把提示处理（CPU-bound）和token生成（GPU-bound）分开运行在不同硬件上。Nvidia自己的Dynamo推理框架，底层逻辑也是这个。

两道闸门同时开着，再多的GPU也不够漏。

谁在闷声发大财

这场混乱中，有人倒霉，就有人偷着乐。

闷声发大财的第一类：专业的GPU云厂商。

CoreWeave、Lambda、RunPod、GMI这些“新生代云厂商”，H100价格普遍在1.99到3.99美元之间，比AWS、Azure这些传统巨头便宜40%到70%。它们没有历史包袱，灵活调度，定价激进，专门收割那些被巨头伤透了心的企业。

闷声发大财的第二类：去中心化市场。

Vast.ai、io.net、Aethir这些平台，GPU价格经常低于1美元。虽然质量参差不齐，但“穷得只剩GPU”的工作负载（比如实验性训练、非关键推理）完全可以在这些平台上跑，成本忽略不计。

最惨的是谁？

是那些既不敢用新生代云厂商（担心稳定性），又舍不得放弃巨头合同（担心将来抢不到资源），于是两边都沾一点、两边都用不好的企业。

这类企业往往占大多数。

怎么打破困局

说了这么多问题，总得给条活路。

Cast AI的报告列了五条“不花钱”就能提高利用率的建议：

第一条，持续动态调整，别搞一次性配置。 资源需求六个月后通常会变，但大多数企业的配置是部署时定好的，之后再也没人管。Karpenter、OpenCost、Kubecost这些开源工具可以自动做这件事。Cast AI自己客户的CPU资源配置，平均优化了50%。

第二条，把T4这类老芯片用在合适的地方。 Cast AI的数据显示，T4在spot实例中的中断风险在不同区域差异巨大：西欧有些区域24小时中断率只有10%，但德国和美国东部某些区域高达80%。选对区域，就是选对可靠性。

第三条，用MIG和时间分片共享GPU。 Nvidia的MIG技术可以把一张A100、H100或H200拆成多个独立实例。vLLM和Dynamo支持连续批处理和分离式推理。这些都是开源的，不需要买任何新产品。

第四条，解耦CPU和GPU。 Ray框架允许CPU密集型的数据准备和GPU密集型训练独立扩展。这是Anyscale自己推荐的做法，Canva用这个方法把分布式训练的GPU利用率拉到了接近100%，云成本降了50%。

第五条，定期重新平衡预留实例。 预留实例和Savings Plan会随着工作负载变化而过时。Cast AI、nOps、Vantage这些工具可以自动监控实际用量和预留量的差距，动态调整。

一个反直觉的建议

报告里最让我意外的建议，来自Cast AI的Laurent Gil：

“你真的需要H200吗？”

H200的设计场景是超大规模模型（700亿参数以上）和超长上下文（128k tokens以上）。它的141GB显存（几乎是H100的两倍），在这种场景下是刚需。但如果你的模型只有几十亿参数，H100就够了——按小时算便宜40%。如果你的推理做了量化优化，A100可能都够用——再省60%。

很多企业买H200，不是因为模型需要，而是因为“刚好排到了”。

这是FOMO最讽刺的一面：企业花大价钱买最新款芯片，然后让它95%的时间闲置。买的越贵，浪费越狠。

Gil的原话是这么说的：“在80%利用率下，B200确实比A100的单位token成本更低。但在5%利用率下，算术刚好反过来。”

最贵的配置，是用最高端的芯片，跑最低的利用率。

结尾

这份报告最让我感慨的，是它揭示了一个残酷的真相：

企业不是没有能力提高GPU利用率，而是没有勇气。

释放闲置GPU是提高利用率最直接的办法。但释放意味着风险——将来要不到怎么办？所以没人愿意当第一个松手的人。于是大家一起攥着，一起浪费，一起涨价，一起后悔。

这是经典的囚徒困境。每个人都在做“对自己最安全”的选择，但所有人的选择加在一起，制造了最大的不安全。

打破这个循环的办法只有一个：把采购和运行当作同一个问题来对待，而不是两个独立的预算项。

前者负责“别买多了”，后者负责“别浪费了”。只解决其中一个，另一边的漏洞会一直漏。

2026年，企业们是该认真问一下自己：那些价值几百万的GPU，到底是在创造价值，还是在创造焦虑？

【锐评】：5%的利用率是FOMO的代价，是企业集体焦虑的具象化。打破这个循环需要的不是更多GPU，而是——承认自己可能不需要那么多。

参考链接：
https://venturebeat.com/infrastructure/fomo-is-why-enterprises-pay-for-gpus-they-dont-use-and-why-prices-keep-climbing

上一篇：高并发交易系统重构：CQRS 与 CDC 实现 MySQL 和 NoSQL 协同的实战指南
下一篇：AI编程代理凭证遭劫持：Claude Code、Copilot与Codex接连暴露致命漏洞

GPU, Kubernetes, H200, 模型训练, GPU利用率