找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4376

积分

0

好友

633

主题
发表于 2 小时前 | 查看: 3| 回复: 0

你可能想象不到,全球企业花大价钱买来的GPU,每天有95%的时间在晒太阳。

根据Cast AI最新发布的2026年Kubernetes优化报告,在测量了真实生产集群后,他们发现大多数企业的GPU利用率只有5%

5%是什么概念?Cast AI联合创始人Laurent Gil给了一个更直观的对比:如果你什么都不干,让GPU自己跑,平均利用率也能达到30%左右。企业们花了高价买来的“核武器”,实际效率只有“躺平模式”的六分之一。

而且这个糟糕的数字,还在恶性循环里越陷越深。

FOMO:一切荒诞的起点

先解释一下这5%是怎么来的。

故事通常是这样的:某家企业需要GPU做AI模型。HR开始招人,算法工程师到位,模型代码写完——然后发现,得找云服务商要GPU。

打电话过去,对方说:“你申请了48张,我这里有36张。你要不要?不要的话,后面还有五家公司排队。”

要,还是不要?

不要,下个月可能一张都拿不到。要,好歹先囤着。

于是合同签了,36张H200,三年期。价格?比按需贵不了多少,但至少“有”了。

这36张GPU,模型训练可能只需要8张。剩下的28张怎么办?

答案是:放着。

因为如果现在释放出去,将来想要回来,可能要等三个月到半年。谁也不想成为“那个交还了GPU、后来又要不回来”的团队。

这就是FOMO(错失恐惧症)在企业界的经典演绎。个人层面的FOMO是“别人赚了一个亿我不能错过”,企业层面的FOMO是“别人有GPU我没有,明年模型就上线不了”。

于是,每个企业都选择最“安全”的做法:多买,少用,宁可浪费,不敢放手。

价格暴涨的真相

这种集体行为的后果,直接体现在了价格上。

2026年1月的一个周六,AWS悄无声息地把预留H200 GPU的价格提高了约15%。没有公告,没有解释。

这是自2006年AWS推出EC2以来,超大规模云服务商第一次上调预留GPU价格。

过去二十年,“云服务越来越便宜”是科技行业的铁律。每年都有新折扣,每年都更划算。但这个规律,在GPU这件事上,被打破了。

为什么会这样?因为GPU市场已经悄然分裂成两个世界:

商品层,H100的按需价格从2025年9月的每GPU小时7.57美元,降到现在的3.93美元。Lambda Labs和RunPod甚至挂出了低于3美元的价格。A100更是跌到了1.92美元。T4芯片在AWS多个区域的24小时可用率超过90%——曾经一芯难求,现在随便挑。

但在前沿层,完全是另一番景象。Nvidia收到了2026年200万颗H200芯片的订单,但库存只有70万颗。TSMC的先进封装产能在2027年中期之前都被订满了。AMD也发出警告,2026年价格还要涨。連A100的价格都在反弹——原本以为三年期合同到期后会降价,结果需求太旺盛,又涨回来了。

富的越富,穷的越穷。 在前沿层抢不到GPU的企业,只能去商品层抢老芯片;在前沿层抢到GPU的企业,又舍不得放开——于是前沿层更挤,商品层更空。

浪费的两道闸门

5%的利用率,问题出在哪里?

Cast AI的数据显示,浪费来自两道闸门:

第一道闸门是采购环节。 企业因为FOMO而过度采购,签了多年合同不敢释放。这部分浪费,业内早就心知肚明。

第二道闸门藏在技术架构里。 Anyscale(Ray框架的母公司)在2026年1月发布的分析中指出,现代AI工作负载即使在集群规模“刚刚好”的情况下,GPU利用率也经常低于50%。

为什么?因为一个典型的AI训练任务要经过三个阶段:CPU密集型(加载数据、预处理)、GPU密集型(训练或推理)、再回到CPU。每个阶段占用的硬件资源不同,但传统做法是把它们塞进同一个容器里——于是GPU在等CPU的时候,只能空转。

Gartner在2025年11月的研究报告给出了同样的诊断:建议企业把提示处理(CPU-bound)和token生成(GPU-bound)分开运行在不同硬件上。Nvidia自己的Dynamo推理框架,底层逻辑也是这个。

两道闸门同时开着,再多的GPU也不够漏。

谁在闷声发大财

这场混乱中,有人倒霉,就有人偷着乐。

闷声发大财的第一类:专业的GPU云厂商。

CoreWeave、Lambda、RunPod、GMI这些“新生代云厂商”,H100价格普遍在1.99到3.99美元之间,比AWS、Azure这些传统巨头便宜40%到70%。它们没有历史包袱,灵活调度,定价激进,专门收割那些被巨头伤透了心的企业。

闷声发大财的第二类:去中心化市场。

Vast.ai、io.net、Aethir这些平台,GPU价格经常低于1美元。虽然质量参差不齐,但“穷得只剩GPU”的工作负载(比如实验性训练、非关键推理)完全可以在这些平台上跑,成本忽略不计。

最惨的是谁?

是那些既不敢用新生代云厂商(担心稳定性),又舍不得放弃巨头合同(担心将来抢不到资源),于是两边都沾一点、两边都用不好的企业。

这类企业往往占大多数。

怎么打破困局

说了这么多问题,总得给条活路。

Cast AI的报告列了五条“不花钱”就能提高利用率的建议:

第一条,持续动态调整,别搞一次性配置。 资源需求六个月后通常会变,但大多数企业的配置是部署时定好的,之后再也没人管。Karpenter、OpenCost、Kubecost这些开源工具可以自动做这件事。Cast AI自己客户的CPU资源配置,平均优化了50%。

第二条,把T4这类老芯片用在合适的地方。 Cast AI的数据显示,T4在spot实例中的中断风险在不同区域差异巨大:西欧有些区域24小时中断率只有10%,但德国和美国东部某些区域高达80%。选对区域,就是选对可靠性。

第三条,用MIG和时间分片共享GPU。 Nvidia的MIG技术可以把一张A100、H100或H200拆成多个独立实例。vLLM和Dynamo支持连续批处理和分离式推理。这些都是开源的,不需要买任何新产品。

第四条,解耦CPU和GPU。 Ray框架允许CPU密集型的数据准备和GPU密集型训练独立扩展。这是Anyscale自己推荐的做法,Canva用这个方法把分布式训练的GPU利用率拉到了接近100%,云成本降了50%。

第五条,定期重新平衡预留实例。 预留实例和Savings Plan会随着工作负载变化而过时。Cast AI、nOps、Vantage这些工具可以自动监控实际用量和预留量的差距,动态调整。

一个反直觉的建议

报告里最让我意外的建议,来自Cast AI的Laurent Gil:

“你真的需要H200吗?”

H200的设计场景是超大规模模型(700亿参数以上)和超长上下文(128k tokens以上)。它的141GB显存(几乎是H100的两倍),在这种场景下是刚需。但如果你的模型只有几十亿参数,H100就够了——按小时算便宜40%。如果你的推理做了量化优化,A100可能都够用——再省60%。

很多企业买H200,不是因为模型需要,而是因为“刚好排到了”。

这是FOMO最讽刺的一面:企业花大价钱买最新款芯片,然后让它95%的时间闲置。买的越贵,浪费越狠。

Gil的原话是这么说的:“在80%利用率下,B200确实比A100的单位token成本更低。但在5%利用率下,算术刚好反过来。”

最贵的配置,是用最高端的芯片,跑最低的利用率。

结尾

这份报告最让我感慨的,是它揭示了一个残酷的真相:

企业不是没有能力提高GPU利用率,而是没有勇气。

释放闲置GPU是提高利用率最直接的办法。但释放意味着风险——将来要不到怎么办?所以没人愿意当第一个松手的人。于是大家一起攥着,一起浪费,一起涨价,一起后悔。

这是经典的囚徒困境。每个人都在做“对自己最安全”的选择,但所有人的选择加在一起,制造了最大的不安全。

打破这个循环的办法只有一个:把采购和运行当作同一个问题来对待,而不是两个独立的预算项。

前者负责“别买多了”,后者负责“别浪费了”。只解决其中一个,另一边的漏洞会一直漏。

2026年,企业们是该认真问一下自己:那些价值几百万的GPU,到底是在创造价值,还是在创造焦虑?


【锐评】:5%的利用率是FOMO的代价,是企业集体焦虑的具象化。打破这个循环需要的不是更多GPU,而是——承认自己可能不需要那么多。

参考链接:
https://venturebeat.com/infrastructure/fomo-is-why-enterprises-pay-for-gpus-they-dont-use-and-why-prices-keep-climbing




上一篇:高并发交易系统重构:CQRS 与 CDC 实现 MySQL 和 NoSQL 协同的实战指南
下一篇:AI编程代理凭证遭劫持:Claude Code、Copilot与Codex接连暴露致命漏洞
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-5 22:49 , Processed in 1.175858 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表