云栈社区»论坛 › 站务中心「 Forum Service 」 › IBM提出抽象思维链：用64个乱码token替代万言推理，AI思考速度暴 ...

发回帖发新帖

5275 积分	0 好友	723 主题

发消息

IBM提出抽象思维链：用64个乱码token替代万言推理，AI思考速度暴涨12倍

发表于昨天 19:56 | 查看: 3| 回复: 0

导读
IBM Research 团队祭出一招狠的：用 64 个从未出现过的“乱码”token，替代 AI 动辄几千字的自然语言推理链。推理 token 压缩最高达 11.6 倍，准确率几乎原封不动。更诡异的是——这 64 个符号在训练中自发涌现出类似人类语言的频率分布规律。AI，正在发明自己的语言。

推理模型的“话痨”困境

你有没有想过，每次 ChatGPT 在后台“思考”的时候，它到底在干嘛？

答案是：写作文。

GPT-4o、Claude、DeepSeek-R1……当下所有主流推理模型都遵循同一套逻辑——先用自然语言写一篇“内心独白”，一步步拆解问题，然后才给出最终答案。这就是 Chain-of-Thought（思维链，CoT）推理。

问题是，这篇“内心独白”的成本惊人。一道高中数学题可能就要消耗几百个 token 的“思考”，竞赛级难题更是动辄几千个。每一个 token 都在烧算力、烧时间、烧你的 API 账单。

而这些 token 全都用完整的英语句子写成——主语、谓语、宾语、从句，一个都不少。

但 AI 真的需要这些语法结构来“想事情”吗？

64 个“乱码”：IBM 的疯狂实验

IBM Research 的 Keshav Ramji 团队给出了一个反直觉的答案。

他们从模型词表里划出 64 个从未使用过的特殊 token——<TOKEN_A>、<TOKEN_B>……一直到 <TOKEN_Z> 等等。这些 token 没有任何含义，就是一堆占位符。

然后，他们把整条推理链都替换成了这些符号。

没有主语。没有谓语。没有任何人类能读懂的语句。模型在回答问题之前，先生成一串最多 128 个这样的“乱码”token，然后根据这串符号给出最终答案。

听起来疯了？结果更疯。

“Researchers just taught AI to think 12x faster without using words.”

「研究者刚刚教会了 AI 在不用文字的情况下，思考速度提升 12 倍。」——AlphaSignal AI

AlphaSignal AI推文截图，展示关于AI推理效率提升12倍的技术方案，提及抽象思维链压缩语言与占位符标记

论文摘要截图，IBM Research AI 提出 Abstract Chain-of-Thought 方法，通过离散潜在推理机制大幅减少推理token

▲ AlphaSignal AI 推文，8500+ 次浏览

从“乱码”到“语言”：两阶段炼成记

最大的技术难题在于：这 64 个 token 一开始啥也不代表，怎么让模型学会用它们“思考”？

IBM 的方案分两步走。

第一阶段：信息瓶颈热身

训练时，模型仍然能看到完整的语言推理链。但有一个关键设计——通过块结构注意力掩码，模型在生成最终答案时只能看到提示词和那串抽象 token，完全看不到语言推理链。

这等于在抽象 token 和语言推理链之间制造了一个“信息瓶颈”：如果模型想答对题，就必须把推理链里的关键信息“压缩”进那 64 个符号里。

然后是自蒸馏——模型扔掉语言推理链的“拐杖”，完全靠自己生成抽象 token 序列，再用这些自产序列继续训练。

两个步骤交替进行，64 个 token 的含义从零开始逐渐涌现。

第二阶段：强化学习加码

热身结束后，用 GRPO（群组相对策略优化）强化学习进一步打磨。整个 RL 过程严格限制在那 64 个 token 的“私有词汇表”里，一个自然语言 token 都不许生成。

结果：11.6 倍压缩，精度几乎不掉

在 Qwen3（4B/8B/32B）和 Granite 4.0-Micro（3B）四个模型上，Abstract-CoT 的表现让人倒吸一口凉气：

MATH-500（数学推理）：推理 token 压缩 10.4–11.6 倍，准确率从 92.6% 轻微下滑到 90.8%——只差了 1.8 个百分点。

AlpacaEval（指令跟随）：压缩 1.9–2.2 倍，准确率 60.8% 反超基线的 58.4%——用更少的 token 反而做得更好。

HotpotQA（多跳推理）：压缩 4.0–4.3 倍，精度基本持平。

GPQA-Diamond（研究生级科学问答）：压缩 7.9 倍。

AIME'25（竞赛数学）：压缩 2.7 倍。

做个直观换算：原来需要 1160 个 token 的推理链，现在只要 100 个“乱码”就能搞定。推理 API 账单直接打一折。

arXiv 论文页面截图，论文编号 2604.22709，标题为 Thinking Without Words，介绍抽象思维链方法

▲ 论文 arXiv:2604.22709，已提交至 ICLR 2026 LIT Workshop

最诡异的发现：AI 发明了自己的“语言规律”

如果说 11.6 倍压缩是工程成就，那接下来这个发现就带着几分“细思极恐”的味道了。

在强化学习阶段，研究者观察到一个没有被任何训练目标显式编码的现象：64 个抽象 token 的使用频率自发形成了幂律分布。

少数 token 被高频使用，大量 token 低频出现——这和人类语言中的 Zipf 定律如出一辙。在英语里，“the”、“of”、“and”这些高频词占据了文本的绝大部分，而大量生僻词出现频率极低。

AI 的 64 个“乱码”符号，竟然自发复现了同样的统计规律。

这意味着什么？某些抽象 token 承担了类似“常用概念”的功能，被反复调用于不同推理场景——模型在那个 64 符号的微型世界里，建起了一套有层级的“概念体系”。

“The emergent power-law patterns in the abstract vocabulary are striking.”

「抽象词汇表中涌现的幂律模式令人印象深刻。」——@avaisaziz

alphaXiv 推文截图，讨论无言思考论文，提出将冗长语言思维链替换为简短抽象标记序列

论文 Introduction 章节截图，详细阐述大语言模型对长思维链的依赖及其计算成本问题

▲ alphaXiv 推文，近 1.4 万次浏览，290 赞

“用汇编语言思考”

社区反响激烈。最精准的类比来自 @sakurayukiai：

“Forcing models to output perfect English syntax just to update their hidden states has always been a massive waste of TPS. Abstract CoT is basically letting them think in assembly.”

「强迫模型输出完美的英语句法只是为了更新内部状态，这一直是对 TPS（每秒 token 数）的巨大浪费。Abstract CoT 基本上就是让它们用汇编语言思考。」

这个类比切中要害：高级编程语言方便人类阅读，但编译成汇编后执行效率高得多。AI 推理的本质需求是“更新内部状态”——它并不需要用人类语法来完成这件事。

对比另一种类似思路——“暂停 token”方法——直接插入特殊占位符让模型多“想”一会儿，但不做专门训练。结果？性能反而低于标准推理基线。Abstract-CoT 两阶段训练的精妙设计由此凸显。

黑箱之忧：看不懂的推理还能信吗？

也有人嗅到了危险的气息。

@Surreal_Intel 的评论一针见血：

“One awkward future problem: the model may reason better precisely when it becomes less narratable.”

「一个令人尴尬的未来问题：模型可能恰恰在变得不可叙述时推理得更好。」

如果 AI 用一套人类完全无法理解的“私有语言”进行推理，安全研究人员要怎么验证它的思考过程？当推理链从可读的英语变成 64 个符号的排列组合，可解释性直接归零。

这和当下 AI 安全领域追求“透明度”的方向构成了尖锐张力——效率和可控，可能无法兼得。

还有更根本的质疑。@P33RL3SS 直言：

“It's not reasoning, that's why it's not efficient or exact. It's just a chain of word outputs.”

「这根本称不上推理，所以才不高效也不精确。它只是一串词语输出而已。」

这个批评其实指向了所有基于 transformer 的 CoT 方法——抽象 token 到底是在“推理”，还是只是找到了一种更高效的“模式匹配”捷径？

别急着狂欢：几盆冷水

数据很亮眼，但也要看到另一面。

压缩率差异巨大。 11.6 倍只出现在数学推理任务上，指令跟随任务仅有 1.9 倍。不同场景下的收益天差地别。

精度确实有损失。 MATH-500 上 1.8 个百分点的下降，在竞赛场景下可能意味着从“通过”到“淘汰”的差距。

学术资历尚浅。 这是提交给 ICLR 2026 LIT Workshop 的论文，尚未经过完整的同行评审。有批评者指出论文可能遗漏了高度相关的先行工作。

OpenReview 论文详情页截图，论文已被 ICLR 2026 LIT Workshop 接收，显示作者、摘要和决策信息

▲ ICLR 2026 LIT Workshop 提交页，确认该论文已被收录

AI 推理的下一章

回到最初的问题：AI 真的需要用文字来思考吗？

IBM 的实验给出了一个阶段性答案——至少在数学推理这类结构化任务上，倾向于“不需要”。64 个无意义的符号，经过精心设计的训练流程，可以承载原本需要上千个自然语言 token 才能表达的推理逻辑。

论文 HTML 全文首页截图，展示标题、作者单位、摘要和 Introduction 部分内容

▲ 论文 HTML 全文首页，详细阐述了两阶段训练方案

这背后隐藏着一个更大的图景：推理 token 是当前 AI 模型最大的成本瓶颈之一。如果 Abstract-CoT 的思路能推广到更大的模型和更复杂的任务，推理 API 的成本结构可能迎来一次根本性的重塑。

但代价同样清晰：当 AI 的思考过程从人类可读的语言变成一串密码，我们和 AI 之间的最后一层“共同语言”也随之消失了。

效率的极限，可能就是透明度的终点。

对前沿 Transformer 推理机制与工程实践感兴趣的朋友，不妨常来云栈社区转转，这里有最硬核的技术讨论与资源分享。

— END —

上一篇：Anthropic估值冲上9000亿美元，500亿融资开启48小时抢投窗口
下一篇：CTO扎堆辞职写代码：AI时代硅谷的“反向跳槽”潮与职业规则重置

Abstract-CoT, IBM, 思维链, 推理效率, Transformer