云栈社区»论坛 › 站务中心「 Forum Service 」 › tokenmaxxing遭反噬？Nvidia H200三周暴跌40%，算力泡沫告急 ...

发回帖发新帖

4133 积分	0 好友	545 主题

发消息

tokenmaxxing遭反噬？Nvidia H200三周暴跌40%，算力泡沫告急

发表于 2026-6-1 02:25:02 | 查看: 271| 回复: 0

Gary Marcus 说，tokenmaxxing 到头了。

5 月 29 日他在 Substack 发了篇长文，标题直接宣告了这场运动的衰落。帖子热度很高，我刷到的时候评论区已经吵成一片。

Gary Marcus预测tokenmaxxing衰退后的两种可能

他的预测很激进。

他的判断是，tokenmaxxing 衰退之后，OpenAI 陷入困境。商业模式严重依赖 token 消耗的持续增长，这个增长一旦放缓，整个故事就讲不下去了。

然后是 LLM 变成大宗商品，利润薄到看不出来的那种。

最激进的一条，Nvidia H200 也会下滑。算力需求不再是无限制的单行道。

比 Gary Marcus 这篇文章更值得关注的，是同一周挤在一起的三件事。

Uber COO 安德鲁·麦克唐纳（Andrew Macdonald）公开批评 tokenmaxxing。Business Insider 的报道写得直白，AI 成本在飙升，生产力提升非常有限，Uber 的 AI 预算消耗速度远超预期。

Uber COO Andrew Macdonald 表示AI成本飙升

这是全球最大出行平台的高管，对着媒体说他们花不起这个钱了。

我之前写过 Uber 三个月烧光全年 AI 预算的事，当时还以为是内部管控的问题。现在看来不是管控的问题，是整个 tokenmaxxing 逻辑在企业端正在撞墙。

然后是 Nature。

Nature 发了一篇文章，标题叫「Stop tokenmaxxing and deploy AI sensibly instead」。

Nature。不是科技媒体，不是意见博主。当科学界顶刊都开口的时候，说明问题已经从行业争议升级到了学术界的公开表态。

Nature Machine Intelligence 社论：停止tokenmaxxing，合理部署AI

文章里提到了一个让我印象深刻的细节，黄仁勋说高级工程师每月应消耗 25 万美元 的 token。Nature 的态度很明确，这不是什么值得炫耀的数字。

还有第三件事，最安静的，也是我注意到之后一直没放下的一条。

Gary Marcus 引用了一组数据，Nvidia H200 的租金从每小时 7 美元跌到 4 美元，三周跌掉 40%。

没有事故。没有大版本发布。没有产能暴增。就是一个安静的下跌。

Gary Marcus 把这条数据放在了文章开头，作为整个衰退论的证据基座。我觉得这个选择很聪明。

去年这时候所有人还在说算力是新的石油。

谁能想到半年不到……

什么是 tokenmaxxing

tokenmaxxing 这个词你已经见过了。简单说就是用海量 token 消耗来换取模型输出质量的提升。给大模型更多上下文，跑更多推理步骤，生成更长的回答，理论上它就更聪明。

这个逻辑本身没毛病。更多计算确实能换来更好的输出。

过去两年整个行业都在按这个逻辑跑。模型厂商鼓励你多用，用量等于营收；算力厂商鼓励你多买，需求等于估值。企业这边也乐得配合，毕竟用得越多越能证明自己重视 AI。

问题出在执行上

Meta 内部搞了个「Claudeonomics」排行榜，比谁花 token 多。据 The Information 报道，亚马逊有工程师写代码让 AI 对话消耗十倍 token。

亚马逊内部员工刷token消耗的报道

另据多方报道，Visa 每个月要消耗掉近 2 万亿 token。

Visa每月消耗大量AI tokens的示意图

这些数字单独拿出来都让人咋舌，放在一起更是让人怀疑，这里面到底有多少是真正的需求，多少是表演性的消耗。

反噬的信号

OpenAI 关了视频生成工具 Sora，GitHub Copilot 暂停新订阅转向用量计费，公司自己都在算账了。

Waydev 跟踪了 50 家公司超过 1 万名工程师，发现 AI 生成代码的表面接受率 80% 到 90%，很漂亮。

但实际留存率只有 10% 到 30%。

GitClear 的报告更直接，AI 用户的代码 churn 是非 AI 用户的 9.4 倍。

TechCrunch 4 月 17 日的报道用一句话总结了这件事：「更多代码被写出来了，但不成比例的大量代码留不住。」

代码领域是最容易量化的，所以这组数据最先被看到。但同样的逻辑适用于客服、写作、分析、搜索——只是没那么容易被量化罢了。

我自己的体会是，用 AI 写代码确实会有一种效率错觉。看着输出一行行涌出来，你会觉得今天产能爆表了。但真正 review 的时候能留下的远比看起来少……

当十段代码只有三段能留下来，你到底是变快了还是变慢了？

两种截然相反的预测

Gary Marcus 看到了 0.3 倍的 ROI，说行业完了。

X 上有个专门盯 scaling law 的博主 @scaling01 不这么看。

他的反驳大意是，顶级智能会成为奢侈品而非大宗商品，OpenAI 会持续繁荣，Nvidia 会成为首个 10 万亿美元 公司。

同一条数据，两个完全相反的结论。

一个看到泡沫的终点，另一个看到下一个超级周期。

这个问题没有标准答案。

但我注意到一个有意思的不对称。

Gary Marcus 的文章里引用了 H200 租金暴跌的数据，他把这条放在开头，作为整个衰退论的证据基座。而 @scaling01 的反驳——洋洋洒洒讲了顶级智能的稀缺性、OpenAI 的护城河、Nvidia 的万亿美元前景——通篇没有一个字提到价格走势。

这不是疏忽。当你选择性地无视价格信号时，通常不是因为没看到，而是因为这条数据对你的叙事不利。

Gary Marcus 说行业完了，至少拿出了账单上的数字。@scaling01 说下一个超级周期来了，但他的论证里没有成本这一环。

忽略价格谈需求，就像忽略账单谈消费。你可以聊消费升级聊得天花乱坠，但最后要买单的数字不会因为你的叙事而变小。

黄仁勋说高级工程师每月应消耗 25 万美元的 token，潜台词是花得越多说明用得越好。Nature 指出 token 使用量在爆炸式增长但实际效益存疑。

回头看，2024 年到 2025 年初的 AI 行业很像 2000 年前后的互联网。那时候的逻辑也是「流量越多越好」，没人关心流量能不能变现。

后来的故事我们都知道了。泡沫破掉之后活下来的不是流量最大的公司。

AI 可能正在经历同样的分水岭。只不过这一次的「流量」叫 token，这一次的「变现」叫实际产出。

tokenmaxxing 不会消失。在特定场景下它确实能带来更好的结果。但它正在从一个「默认选项」变成一个「需要被证明」的选项。

行业正在从信仰模式切换到证据模式。信仰模式下你不需要解释为什么花这么多 token，因为所有人都默认越多越好。证据模式下每一颗 token 都要回答一个问题，这笔钱花出去，留下了什么。

OpenAI 的定价策略要变，Nvidia 的需求曲线可能没有想象中那么陡峭，Meta 和亚马逊里刷排行榜的工程师们 KPI 要改。至于每一个给 AI 工具付月费的企业，是时候打开账单看一眼了。

能回答「留下了什么」这个问题的公司会活下来。回答不了的，会变成 H200 租金曲线上的另一个数据点。

我自己最近也在想这件事。用 AI 写这篇文章的时候，我分得清哪些部分是它在帮我和哪些部分是我在用它吗？说实话，分不太清。

关于 tokenmaxxing 的后续影响，云栈社区也有不少开发者分享过实际测算和避坑经验。

上一篇：戴尔2027财年Q1财报解析：AI服务器营收激增757%，积压订单达513亿美元
下一篇：拆解问界M7整车控制器：5个核心IC有3个查不到型号，定制化暗藏哪些门道？

代币最大化, Nvidia H200, AI算力, GPU租金, 人工智能产业