5090 积分	0 好友	657 主题

大模型Token降本实战：七条AI交互卫生习惯

发表于 2 小时前 | 查看: 2| 回复: 0

过去半年跟大模型打交道，我最大的感触就浓缩成两个字：卫生。

别误会，这跟物理卫生没关系，我说的是交互习惯的卫生。 Token 的价格确实在一路走低，但你我的注意力和决策带宽可没跟着变廉价。脏活儿干得多了，不仅模型显得傻，你自己的脑子也跟着乱。

下面这七条，是我实打实沉淀下来的经验。

很多工具默认开启“自适应思考”，这功能听起来省心，实际上会让 Token 消耗直接失控。正确的打开方式是固定配置：把推理档位死锁在 High，关掉自适应；思考预算给个 32K 的上限；关掉无底洞似的超长上下文，设个 200K 自动压缩。

以后模型要是变蠢，别急着甩锅，先看看是不是自己没把档位锁死。

模型对完全相同的输入前缀存在缓存命中机制。同样一段内容，重复利用缓存去调取，成本可能只要十分之一。像你的身份背景、业务设定、输出偏好、核心原则这类长期不变的东西，写成固定文本，别每次都心血来潮换个说法。

临时起意的那部分——比如本次的具体任务、刚拿到手的素材、阶段性目标、Deadline——再往里填。不要小看反复组织语言的沉没成本，变动带来的消耗远超想象。

PPT 和 Word 这类富格式文件里藏着海量的排版控制信息。你把它们直接丢给模型，八成以上的无效 Token 都耗在了解读格式指令上。

正确的投喂习惯：先转成 Markdown。记住，格式是给人看的，Markdown 才是给模型消化的。先清洗，再对话。

一个超长的会话窗口里，堆满了历史日志和工具调用记录。模型动不动就“翻旧账”，处理起来既贵又慢。你得养成“及时止损”的习惯：换任务，就开新对话；跑偏了，重背景，直接重开；只要距离上一条消息超过一小时，也直接重开。

只有一个例外：同一任务连续推进，且两次间隔不超过一小时，继续留在原地聊才划算。

用 @ 精准锁定文件或函数，剥夺 AI 盲扫整个项目的权利。@文件名 引用指定文件，@函数名 把范围缩到逻辑单元，或者直接选中代码块定点修改。

同样是改一条验证规则，盲扫可能要过几十个文件，精准引用能把消耗压到几百 Token——中间是几十倍的效率差。记住这个优先级：能 @函数 就不 @文件，能 @文件 就不靠无脑扫描。

别上来就命令它干活。先引导：“你一次问我一个问题，帮我把思路理清”，等它顺着你的逻辑问完，你再把梳理出的结论整理成文档。这样产出的内容，AI味儿会淡很多。

或者直截了当：“要达到这个目标，你需要我给你什么信息才能完成得更好？” 这能倒逼模型主动照亮你的盲区。让它先提问，远比让它瞎猜便宜。

出方案这种事，交给最贵的顶尖模型去烧脑，只让它出思路、定方案，别让它碰文件修改；等到要把方案落地、做机械的批量调整，就派便宜的轻量模型去执行。

顶配模型不用为了改几行代码去通读整个项目，消耗能降个 3 到 5 倍；便宜模型也不去费心思考，只负责照章办事，Token 极省。一句话，机械的体力活留给机器，宝贵的思考带宽留给你手头最值钱的那个“脑子”。

养成这些习惯，真不是为了省那几个 Token 的钱。就算未来 Token 彻底白送，你的思考带宽和注意力也不会变多。恰恰是因为 AI 太便宜，才容易让人滥用：同时开十个 Agent、硬扫整个项目、无限试错无限返工……

你的决策带宽是有限的。对自己前额叶好一点，这大概就是 AI 时代最值钱的“工作卫生”。

在云栈社区上，关于大模型应用、RAG 落地以及怎么让 Agent 干活更聪明的讨论从未停过，如果你也在摸索如何更“干净”地驾驭模型，不妨来看看。