Gary Marcus 说,tokenmaxxing 到头了。
5 月 29 日他在 Substack 发了篇长文,标题直接宣告了这场运动的衰落。帖子热度很高,我刷到的时候评论区已经吵成一片。

他的预测很激进。
他的判断是,tokenmaxxing 衰退之后,OpenAI 陷入困境。商业模式严重依赖 token 消耗的持续增长,这个增长一旦放缓,整个故事就讲不下去了。
然后是 LLM 变成大宗商品,利润薄到看不出来的那种。
最激进的一条,Nvidia H200 也会下滑。算力需求不再是无限制的单行道。
比 Gary Marcus 这篇文章更值得关注的,是同一周挤在一起的三件事。
Uber COO 安德鲁·麦克唐纳(Andrew Macdonald)公开批评 tokenmaxxing。Business Insider 的报道写得直白,AI 成本在飙升,生产力提升非常有限,Uber 的 AI 预算消耗速度远超预期。

这是全球最大出行平台的高管,对着媒体说他们花不起这个钱了。
我之前写过 Uber 三个月烧光全年 AI 预算的事,当时还以为是内部管控的问题。现在看来不是管控的问题,是整个 tokenmaxxing 逻辑在企业端正在撞墙。
然后是 Nature。
Nature 发了一篇文章,标题叫「Stop tokenmaxxing and deploy AI sensibly instead」。
Nature。不是科技媒体,不是意见博主。当科学界顶刊都开口的时候,说明问题已经从行业争议升级到了学术界的公开表态。

文章里提到了一个让我印象深刻的细节,黄仁勋说高级工程师每月应消耗 25 万美元 的 token。Nature 的态度很明确,这不是什么值得炫耀的数字。
还有第三件事,最安静的,也是我注意到之后一直没放下的一条。
Gary Marcus 引用了一组数据,Nvidia H200 的租金从每小时 7 美元跌到 4 美元,三周跌掉 40%。
没有事故。没有大版本发布。没有产能暴增。就是一个安静的下跌。
Gary Marcus 把这条数据放在了文章开头,作为整个衰退论的证据基座。我觉得这个选择很聪明。
去年这时候所有人还在说算力是新的石油。
谁能想到半年不到……
什么是 tokenmaxxing
tokenmaxxing 这个词你已经见过了。简单说就是用海量 token 消耗来换取模型输出质量的提升。给 大模型 更多上下文,跑更多推理步骤,生成更长的回答,理论上它就更聪明。
这个逻辑本身没毛病。更多计算确实能换来更好的输出。
过去两年整个行业都在按这个逻辑跑。模型厂商鼓励你多用,用量等于营收;算力厂商鼓励你多买,需求等于估值。企业这边也乐得配合,毕竟用得越多越能证明自己重视 AI。
问题出在执行上
Meta 内部搞了个「Claudeonomics」排行榜,比谁花 token 多。据 The Information 报道,亚马逊有工程师写代码让 AI 对话消耗十倍 token。

另据多方报道,Visa 每个月要消耗掉近 2 万亿 token。

这些数字单独拿出来都让人咋舌,放在一起更是让人怀疑,这里面到底有多少是真正的需求,多少是表演性的消耗。
反噬的信号
OpenAI 关了视频生成工具 Sora,GitHub Copilot 暂停新订阅转向用量计费,公司自己都在算账了。
Waydev 跟踪了 50 家公司超过 1 万名工程师,发现 AI 生成代码的表面接受率 80% 到 90%,很漂亮。
但实际留存率只有 10% 到 30%。
GitClear 的报告更直接,AI 用户的代码 churn 是非 AI 用户的 9.4 倍。
TechCrunch 4 月 17 日的报道用一句话总结了这件事:「更多代码被写出来了,但不成比例的大量代码留不住。」
代码领域是最容易量化的,所以这组数据最先被看到。但同样的逻辑适用于客服、写作、分析、搜索——只是没那么容易被量化罢了。
我自己的体会是,用 AI 写代码确实会有一种效率错觉。看着输出一行行涌出来,你会觉得今天产能爆表了。但真正 review 的时候能留下的远比看起来少……
当十段代码只有三段能留下来,你到底是变快了还是变慢了?
两种截然相反的预测
Gary Marcus 看到了 0.3 倍的 ROI,说行业完了。
X 上有个专门盯 scaling law 的博主 @scaling01 不这么看。
他的反驳大意是,顶级智能会成为奢侈品而非大宗商品,OpenAI 会持续繁荣,Nvidia 会成为首个 10 万亿美元 公司。
同一条数据,两个完全相反的结论。
一个看到泡沫的终点,另一个看到下一个超级周期。
这个问题没有标准答案。
但我注意到一个有意思的不对称。
Gary Marcus 的文章里引用了 H200 租金暴跌的数据,他把这条放在开头,作为整个衰退论的证据基座。而 @scaling01 的反驳——洋洋洒洒讲了顶级智能的稀缺性、OpenAI 的护城河、Nvidia 的万亿美元前景——通篇没有一个字提到价格走势。
这不是疏忽。当你选择性地无视价格信号时,通常不是因为没看到,而是因为这条数据对你的叙事不利。
Gary Marcus 说行业完了,至少拿出了账单上的数字。@scaling01 说下一个超级周期来了,但他的论证里没有成本这一环。
忽略价格谈需求,就像忽略账单谈消费。你可以聊消费升级聊得天花乱坠,但最后要买单的数字不会因为你的叙事而变小。
黄仁勋说高级工程师每月应消耗 25 万美元的 token,潜台词是花得越多说明用得越好。Nature 指出 token 使用量在爆炸式增长但实际效益存疑。
回头看,2024 年到 2025 年初的 AI 行业很像 2000 年前后的互联网。那时候的逻辑也是「流量越多越好」,没人关心流量能不能变现。
后来的故事我们都知道了。泡沫破掉之后活下来的不是流量最大的公司。
AI 可能正在经历同样的分水岭。只不过这一次的「流量」叫 token,这一次的「变现」叫实际产出。
tokenmaxxing 不会消失。在特定场景下它确实能带来更好的结果。但它正在从一个「默认选项」变成一个「需要被证明」的选项。
行业正在从信仰模式切换到证据模式。信仰模式下你不需要解释为什么花这么多 token,因为所有人都默认越多越好。证据模式下每一颗 token 都要回答一个问题,这笔钱花出去,留下了什么。
OpenAI 的定价策略要变,Nvidia 的需求曲线可能没有想象中那么陡峭,Meta 和亚马逊里刷排行榜的工程师们 KPI 要改。至于每一个给 AI 工具付月费的企业,是时候打开账单看一眼了。
能回答「留下了什么」这个问题的公司会活下来。回答不了的,会变成 H200 租金曲线上的另一个数据点。
我自己最近也在想这件事。用 AI 写这篇文章的时候,我分得清哪些部分是它在帮我和哪些部分是我在用它吗?说实话,分不太清。
关于 tokenmaxxing 的后续影响,云栈社区 也有不少开发者分享过实际测算和避坑经验。