找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4541

积分

0

好友

625

主题
发表于 4 小时前 | 查看: 5| 回复: 0

你有没有发现,每次向AI提问一个技术问题时,它总会先说一句“Great question!”,接着用三段话铺陈背景,再用两段解释你根本没问的东西,直到第六段才给出那个其实一句话就能讲清楚的答案?

说实话,这种冗长的回复方式已经让不少开发者感到抓狂。终于有人忍无可忍,捣鼓出了一个听起来有点荒诞的解决方案:强制让Claude用穴居人的方式说话。

这个项目叫做Caveman,在GitHub上已经收获了4500颗星,采用MIT协议,并在今年4月6日刚刚发布了v1.2.0版本。

效果如何?输出token直接砍掉75%,回复速度快了3倍

Caveman GitHub 仓库主页截图
Caveman GitHub 仓库:4.5k Stars,MIT 许可证

. . . . .

核心速览

一、Caveman 是一个 Claude Code 技能插件,旨在让AI用极简语法回复,砍掉废话,保留关键精度。
二、提供三档强度可选:Lite(去除修饰词)、Full(完整的穴居人语法)、Ultra(电报式极限压缩)。
三、在10个常见编程任务测试中,平均节省 65% 的token,最高节省达 87%
四、有学术论文指出,简短约束非但不降低准确率,在某些场景下甚至能提升26个百分点。
五、真正的问题或许不是token贵不贵,而是AI回复的“信噪比”正在持续恶化。

Caveman 到底做了什么?

先看一个直观对比。

假设你问AI:“我的React组件为什么一直重新渲染?”

正常模式,AI的回复可能需要 69 个token:

The reason your React component is re-rendering is likely because you are creating a new object reference on each render cycle. When you pass an inline object as a prop, React shallow comparison sees it as a different object every time, which triggers a re-render. I would recommend using useMemo to memoize the object.

穴居人模式,同样的答案被压缩到仅 19 个token:

New object ref each render. Inline object prop = new ref = re-render. Wrap in useMemo.

信息量完全一致。少了什么?客套话、背景铺垫、过渡句以及重复性的解释。仅仅是这些东西,就占用了原回复72%的token。

Caveman提供了三档可调节的强度:

  • Lite:仅去掉“Great question!”之类的修饰词和客套话,保持正常语法。
  • Full:默认档位,采用完整的“穴居人语法”,省略冠词、连词,像原始人一样直奔要点。
  • Ultra:电报模式,极限压缩到只剩下关键词和核心符号。

此外,它还附带一个compress工具,能够将已有的长对话上下文压缩掉45%的输入token,这对于需要处理长会话上下文的场景非常实用。

安装只需一行命令:

npx skills add JuliusBrussee/caveman

项目作者进行了一项基准测试,跑了10个常见的编程任务。结果显示,使用Caveman后平均节省了65%的token。其中,关于React error boundary的任务节省最显著,达到87%;即使是最简单的“将callback改为async”任务,也节省了22%。

穴居人模式与正常模式的Token节省对比图表
Caveman Token 节省对比:10个编程任务实测数据

有趣的是,作者本人坦言,这个东西“本来就是个玩笑”。

Token省了,模型的“思考”会不会也省了?

这个项目在Hacker News上引发了热烈讨论,获得了867分和358条评论。

Hacker News 上关于Caveman项目的讨论页面截图
Hacker News 热议:867 分,358 条评论

争论的核心焦点在于:强行让模型输出变得简短,是否会损害其推理能力?

反对者的逻辑很直接:Token是大语言模型的基本计算单位,模型生成每个token时都在进行推理。限制输出长度,等同于限制其“思考”空间。这看起来不是在省钱,而是在砍断推理链条。

这个观点听起来颇有道理。

但支持者指出了关键区别:Caveman削减的并非推理步骤,而是修饰性语言。将“I would recommend using useMemo to memoize the object”压缩为“Wrap in useMemo”,完整的推理逻辑(“因为创建了新对象引用,所以触发重渲染,建议使用useMemo”)并没有丢失,被去掉的只是“I would recommend”、“to memoize the object”这类对解决问题无实质帮助的填充词。

这就像一个外科医生在手术中。你不需要他一边操作一边和你闲聊天气,你需要的是精准、高效的动作。去掉闲聊,并不会影响手术本身的质量。

随后,一篇学术论文的出现让讨论出现了翻转。

2026年3月发表的一篇题为《Brevity Constraints Reverse Performance Hierarchies》的研究发现,给模型施加“简短回复”的约束后,在某些基准测试上的准确率反而提升了26个百分点。更引人深思的是,这种约束直接逆转了不同模型之间的性能排名。原本排名靠后的模型,在简短约束下表现反而超过了之前的领先者。

这或许说明,冗长的输出中可能包含大量的“自我重复”和“对冲性表达”。模型在说得过多时,有时反而会混淆自己的核心判断。简短约束相当于逼迫它只输出最有把握、最核心的信息。

真正的问题或许不是Token,而是注意力

讨论到这里,我们可能忽略了一个更根本的问题。

Token有明确的价格,可以量化、可以优化。但人的注意力没有价签,却更容易在无形中被浪费。

当你使用AI编程辅助工具时,真正的成本往往不是API调用账单。而是你盯着那一大段回复,花30秒快速浏览,再用10秒定位关键信息,最后花5秒确认这就是你要的答案。这45秒,如果乘以一天几十次的交互,累积起来就是半小时到一小时的注意力消耗。

把这些宝贵的注意力花在“Great question!”和“I would recommend”这类填充词上,无疑是一种浪费。

Hacker News的评论里有人提到了一个更荒诞的现象:某些公司竟然将AI的token消耗量当作一项KPI。消耗得越多,似乎就越“智能”;产出的token越多,仿佛就代表AI工作得越“努力”。

仔细想想这个逻辑链:我们先是训练AI说一大堆“正确的废话”来显得礼貌和详尽,然后再花费资源开发工具去压缩这些废话。

AI回复的“信噪比”正在恶化。这不是因为模型变笨了,而是因为我们一直在奖励冗长。在人类反馈强化学习(RLHF)的训练过程中,更长、更详细的回复往往能获得更高的人类偏好评分。模型学会的策略就是:多说总不会错,说少了反而可能被扣分。

Caveman的火爆,恰恰从用户端印证了需求正在发生反转。

一些观察

回顾整件事,有几条线索值得串联起来思考。

一个“本来是个玩笑”的项目获得了4500星;一篇严肃论文证明了简短约束能提升准确率;社区关于token与推理的争论暴露了人们对AI输出质量的普遍焦虑;还有那个将token消耗量作为KPI的荒诞现实。

把这些放在一起看,似乎指向同一个判断:AI交互正在进入一个“去泡沫”阶段。

过去两年,大家追求的是AI能做更多、说更多、生成更多。现在,一部分用户开始往回拉了。他们不要“更多”,要“更准”;不要“更长”,要“更快”;不要“客套”,要“信息密度”。

Caveman就是这个趋势的一个极端表达。它不优雅,甚至有点简单粗暴。但粗暴有粗暴的好处,它把一个核心问题摆上了台面:你究竟是需要AI给你一个确切的答案,还是需要它为你表演一场详尽的解说?

这个问题,或许值得每一个日常使用AI编程辅助工具的开发者认真想一想。

. . . . .

相关链接

  • 项目GitHub:github.com/JuliusBrussee/caveman
  • 安装命令:npx skills add JuliusBrussee/caveman
  • 参考论文:Brevity Constraints Reverse Performance Hierarchies (2026.03)

如果你也厌倦了AI的“长篇大论”,不妨去试试这个项目,并在云栈社区分享你的使用体验。




上一篇:Anthropic Harness进入第二阶段:从“补短板”到“删负担”的工程实践
下一篇:算法面试屡战屡败?C++开发者五个月刷题后的反思与突破指南
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-8 10:35 , Processed in 0.907965 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表