云栈社区»论坛 › 开源实战「 OpenSource 」 › 用“穴居人语法”优化AI对话：Caveman项目实测节省65% Token ...

发回帖发新帖

5214 积分	0 好友	706 主题

发消息

[其他] 用“穴居人语法”优化AI对话：Caveman项目实测节省65% Token

发表于 2026-4-8 06:32:43 | 查看: 149| 回复: 0

你有没有发现，每次向AI提问一个技术问题时，它总会先说一句“Great question!”，接着用三段话铺陈背景，再用两段解释你根本没问的东西，直到第六段才给出那个其实一句话就能讲清楚的答案？

说实话，这种冗长的回复方式已经让不少开发者感到抓狂。终于有人忍无可忍，捣鼓出了一个听起来有点荒诞的解决方案：强制让Claude用穴居人的方式说话。

这个项目叫做Caveman，在GitHub上已经收获了4500颗星，采用MIT协议，并在今年4月6日刚刚发布了v1.2.0版本。

效果如何？输出token直接砍掉75%，回复速度快了3倍。

Caveman GitHub 仓库主页截图
Caveman GitHub 仓库：4.5k Stars，MIT 许可证

. . . . .

核心速览

一、Caveman 是一个 Claude Code 技能插件，旨在让AI用极简语法回复，砍掉废话，保留关键精度。
二、提供三档强度可选：Lite（去除修饰词）、Full（完整的穴居人语法）、Ultra（电报式极限压缩）。
三、在10个常见编程任务测试中，平均节省 65% 的token，最高节省达 87%。
四、有学术论文指出，简短约束非但不降低准确率，在某些场景下甚至能提升26个百分点。
五、真正的问题或许不是token贵不贵，而是AI回复的“信噪比”正在持续恶化。

Caveman 到底做了什么？

先看一个直观对比。

假设你问AI：“我的React组件为什么一直重新渲染？”

正常模式，AI的回复可能需要 69 个token：

The reason your React component is re-rendering is likely because you are creating a new object reference on each render cycle. When you pass an inline object as a prop, React shallow comparison sees it as a different object every time, which triggers a re-render. I would recommend using useMemo to memoize the object.

穴居人模式，同样的答案被压缩到仅 19 个token：

New object ref each render. Inline object prop = new ref = re-render. Wrap in useMemo.

信息量完全一致。少了什么？客套话、背景铺垫、过渡句以及重复性的解释。仅仅是这些东西，就占用了原回复72%的token。

Caveman提供了三档可调节的强度：

Lite：仅去掉“Great question!”之类的修饰词和客套话，保持正常语法。
Full：默认档位，采用完整的“穴居人语法”，省略冠词、连词，像原始人一样直奔要点。
Ultra：电报模式，极限压缩到只剩下关键词和核心符号。

此外，它还附带一个compress工具，能够将已有的长对话上下文压缩掉45%的输入token，这对于需要处理长会话上下文的场景非常实用。

安装只需一行命令：

npx skills add JuliusBrussee/caveman

项目作者进行了一项基准测试，跑了10个常见的编程任务。结果显示，使用Caveman后平均节省了65%的token。其中，关于React error boundary的任务节省最显著，达到87%；即使是最简单的“将callback改为async”任务，也节省了22%。

穴居人模式与正常模式的Token节省对比图表
Caveman Token 节省对比：10个编程任务实测数据

有趣的是，作者本人坦言，这个东西“本来就是个玩笑”。

Token省了，模型的“思考”会不会也省了？

这个项目在Hacker News上引发了热烈讨论，获得了867分和358条评论。

Hacker News 上关于Caveman项目的讨论页面截图
Hacker News 热议：867 分，358 条评论

争论的核心焦点在于：强行让模型输出变得简短，是否会损害其推理能力？

反对者的逻辑很直接：Token是大语言模型的基本计算单位，模型生成每个token时都在进行推理。限制输出长度，等同于限制其“思考”空间。这看起来不是在省钱，而是在砍断推理链条。

这个观点听起来颇有道理。

但支持者指出了关键区别：Caveman削减的并非推理步骤，而是修饰性语言。将“I would recommend using useMemo to memoize the object”压缩为“Wrap in useMemo”，完整的推理逻辑（“因为创建了新对象引用，所以触发重渲染，建议使用useMemo”）并没有丢失，被去掉的只是“I would recommend”、“to memoize the object”这类对解决问题无实质帮助的填充词。

这就像一个外科医生在手术中。你不需要他一边操作一边和你闲聊天气，你需要的是精准、高效的动作。去掉闲聊，并不会影响手术本身的质量。

随后，一篇学术论文的出现让讨论出现了翻转。

2026年3月发表的一篇题为《Brevity Constraints Reverse Performance Hierarchies》的研究发现，给模型施加“简短回复”的约束后，在某些基准测试上的准确率反而提升了26个百分点。更引人深思的是，这种约束直接逆转了不同模型之间的性能排名。原本排名靠后的模型，在简短约束下表现反而超过了之前的领先者。

这或许说明，冗长的输出中可能包含大量的“自我重复”和“对冲性表达”。模型在说得过多时，有时反而会混淆自己的核心判断。简短约束相当于逼迫它只输出最有把握、最核心的信息。

真正的问题或许不是Token，而是注意力

讨论到这里，我们可能忽略了一个更根本的问题。

Token有明确的价格，可以量化、可以优化。但人的注意力没有价签，却更容易在无形中被浪费。

当你使用AI编程辅助工具时，真正的成本往往不是API调用账单。而是你盯着那一大段回复，花30秒快速浏览，再用10秒定位关键信息，最后花5秒确认这就是你要的答案。这45秒，如果乘以一天几十次的交互，累积起来就是半小时到一小时的注意力消耗。

把这些宝贵的注意力花在“Great question!”和“I would recommend”这类填充词上，无疑是一种浪费。

Hacker News的评论里有人提到了一个更荒诞的现象：某些公司竟然将AI的token消耗量当作一项KPI。消耗得越多，似乎就越“智能”；产出的token越多，仿佛就代表AI工作得越“努力”。

仔细想想这个逻辑链：我们先是训练AI说一大堆“正确的废话”来显得礼貌和详尽，然后再花费资源开发工具去压缩这些废话。

AI回复的“信噪比”正在恶化。这不是因为模型变笨了，而是因为我们一直在奖励冗长。在人类反馈强化学习（RLHF）的训练过程中，更长、更详细的回复往往能获得更高的人类偏好评分。模型学会的策略就是：多说总不会错，说少了反而可能被扣分。

Caveman的火爆，恰恰从用户端印证了需求正在发生反转。

一些观察

回顾整件事，有几条线索值得串联起来思考。

一个“本来是个玩笑”的项目获得了4500星；一篇严肃论文证明了简短约束能提升准确率；社区关于token与推理的争论暴露了人们对AI输出质量的普遍焦虑；还有那个将token消耗量作为KPI的荒诞现实。

把这些放在一起看，似乎指向同一个判断：AI交互正在进入一个“去泡沫”阶段。

过去两年，大家追求的是AI能做更多、说更多、生成更多。现在，一部分用户开始往回拉了。他们不要“更多”，要“更准”；不要“更长”，要“更快”；不要“客套”，要“信息密度”。

Caveman就是这个趋势的一个极端表达。它不优雅，甚至有点简单粗暴。但粗暴有粗暴的好处，它把一个核心问题摆上了台面：你究竟是需要AI给你一个确切的答案，还是需要它为你表演一场详尽的解说？

这个问题，或许值得每一个日常使用AI编程辅助工具的开发者认真想一想。

. . . . .

相关链接

项目GitHub：github.com/JuliusBrussee/caveman
安装命令：npx skills add JuliusBrussee/caveman
参考论文：Brevity Constraints Reverse Performance Hierarchies (2026.03)

如果你也厌倦了AI的“长篇大论”，不妨去试试这个项目，并在云栈社区分享你的使用体验。

上一篇：Anthropic Harness进入第二阶段：从“补短板”到“删负担”的工程实践
下一篇：算法面试屡战屡败？C++开发者五个月刷题后的反思与突破指南

提示工程, Claude, Caveman, 令牌优化, AI辅助