云栈社区»论坛 › 站务中心「 Forum Service 」 › HRM-Text：1500美元训出的1B模型，凭什么Bengio也押注分层递归推 ...

发回帖发新帖

4427 积分	0 好友	579 主题

发消息

HRM-Text：1500美元训出的1B模型，凭什么Bengio也押注分层递归推理架构？

发表于 2026-6-14 01:31:41 | 查看: 292| 回复: 0

好家伙，这次不是模型圈自嗨。

一个训练成本约 1500美元、参数量约 1B、从零开始预训练的小模型，把 HRM（Hierarchical Reasoning Model，分层递归推理模型）推到了下一代推理架构讨论的中心。

HuggingFace 联合创始人兼 CEO Clem Delangue 亲自转发推荐。图灵奖得主 Yoshua Bengio 作为共同作者参与的新论文，也走向了同一条潜空间递归推理（latent recursive reasoning）路线。

更反常的是，它既不是蒸馏，不是微调，也不是在已有大模型能力上套壳。

它就是 Sapient Intelligence 发布的 HRM-Text。

HuggingFace CEO Clem转发HRM-Text模型推文的截图，展示其开源属性和推理表现

如果只看参数量，很容易把它写成一个熟悉的故事：“小模型又赢了。”

但 HRM-Text 真正值得注意的地方，不是小，也不是便宜。而是它背后那套 HRM 架构，正在追问一个更底层的问题：

模型到底需要记住全世界，还是需要学会如何思考、如何查找、如何验证、如何行动？

过去几年，大模型行业的默认答案很简单：参数更多，数据更多，训练更久，Token更长。

HRM 走的是另一条路。 它不继续把模型做成一个越来越大的知识仓库，而是试图把模型打造成一个更强的推理核心。如果说大模型像一个背着图书馆的学生，那 HRM 更像一个会解题、会查资料、会复盘、会行动的人。

真正让技术圈认真讨论 HRM-Text 的，不是一次转发，而是一组很反常的数字。

HRM-Text与其他模型在FLOPs、训练Token数、MATH、DROP、ARC-C、MMLU等基准上的性能对比图

一个约1B参数的模型，在 MATH 上拿到 56.2，在 GSM8K 上拿到 84.5，在 ARC-Challenge 上拿到 81.9，在 DROP 上拿到 82.2。训练成本约 1500 美元，16块 H100 跑了不到两天，没有 post-training，没有 RLHF，也没有依赖显式思维链（Chain-of-Thought）数据。团队同步开放了论文、模型权重和预训练代码。

这意味着，HRM-Text 并不是在现有大模型能力上做包装，而是在基础预训练阶段，直接验证一种新的架构路线。这更像是一次推理模型的换脑实验：不让模型说出更多思维链，而是让它在开口之前，先在内部完成多轮递归计算。

很快，这条路线也出现在了更高层级的学术讨论中。图灵奖得主 Yoshua Bengio 作为共同作者参与的 《Generative Recursive Reasoning》 提出了 GRAM。它在核心计算结构上高度复用了 HRM 的分层递归骨架：同样是高层状态、低层状态、双时间尺度、多轮递归更新，只是在此之上进一步加入了概率生成模块。

Sapient 并非等行业给出答案之后再追随，而是先把一个关键问题抛了出来，并率先拿出了可运行、可开源、可验证的模型系统：模型能否在输出之前，通过潜空间中的多轮分层递归计算，完成更深层的内部推理？

HRM-Text 的问题因此不只是“一个1B模型为什么能做到这些 benchmark？”，更关键的是：Sapient 是否提前验证了一条下一代推理模型值得认真对待的新路线？

知识不等于智能，CoT 也不等于思考

现在的推理模型，很多时候像是在“边说边想”。Chain-of-Thought 把推理过程写成一串 token，让模型一步一步输出中间过程。这当然有用，但问题也很明显：Token 越来越长，账单越来越高；中间一步错了，后面就可能一路错下去；更根本的是，推理过程被绑定在语言表面，模型很容易学到“像推理的文本”，却不一定真的掌握了“推理的结构”。

HRM 问的是一个更激进的问题：推理为什么一定要写出来？

人类做很多题，并不是把脑内每一步都说成一句话。我们会在脑子里反复尝试、修正、排除、回退，最后才说出答案。HRM 想做的，正是把草稿纸从嘴上拿下来，放回模型的脑子里。这就是 潜空间推理（latent reasoning）——不是让模型输出更长的思维链，而是让模型在输出之前，在内部状态里完成多轮计算。

Sapient 从一开始押注的就不是“小模型”，而是 分层递归推理模型（HRM）。在大多数团队仍围绕 Transformer 做参数、数据和训练技巧优化时，Sapient 选择把问题推到更底层：如果智能不只来自规模扩张，而是来自计算过程的组织方式，那么模型架构本身是否应该被重新设计？

HRM 的核心思想，是让模型在输出之前，于潜空间中完成多轮、分层、递归的状态更新。

HRM在 ARC-AGI、Sudoku、Maze 等强推理任务中采用直接预测与少样本学习的性能对比

2025 年，Sapient 推出 HRM-Symbolic。这个模型主要面向数独、迷宫、ARC-AGI 等封闭、可验证、强推理任务。这类任务规则明确，状态空间可验证，对组合搜索和多步推理要求极高，非常适合先回答一个问题：分层递归推理这条架构路线，到底能不能行？

HRM 的原始论文里，一个 27M 参数模型在没有预训练、没有 CoT 数据、只用约 1000 个训练样本的情况下，在 Sudoku-Extreme、Maze-Hard 和 ARC-AGI 等强推理任务上取得了非常突出的结果。这一步回答了一个问题：在封闭、可验证、强推理任务里，HRM 这条路线能跑通。

但数独不是语言，迷宫也不是开放世界。于是，HRM-Text 回答了第二个更难的问题：把任务放进自然语言世界，HRM还行不行？

这比简单放大模型更难。语言更开放、更模糊，输出形式更灵活，训练也更容易不稳定。所以 HRM-Text 的意义，不是把 HRM-Symbolic 放大一点而已，它是在验证分层递归推理这套架构，能否进入基础语言模型。从 HRM-Symbolic 到 HRM-Text，Sapient 做的是一次技术路线的连续推进：先在封闭任务中验证架构假设，再扩展到开放语言环境，并同步开放论文、代码、权重和训练方法，让整条路线可以被复现、质疑、比较和继续验证。

HRM 的核心：模型里长出两个“脑区”

标准 Transformer 像一条流水线，输入进来，逐层处理，每层处理一次，最后输出。增加能力的直接方式就是堆叠层数、参数和训练数据。

HRM 的思路则不同，它在模型内部放了两个以不同节奏工作的模块：一个是 高层模块 H，一个是 低层模块 L。可以把它理解成两个协同工作的“脑区”。

HRM架构图，展示L模块、H模块、门控自注意力机制和PrefixLM注意力掩码

H 是战略脑，更新得慢，负责把握整体方向、维持长期上下文、决定当前应该往哪里想。L 是执行脑，更新得快，负责局部计算、细节修正、一步步把问题往前推。

关键区别在于，H 和 L 不是两个外部 Agent，也不是两个模型互相发消息。它们在同一个神经网络里，在同一个潜空间中，反复更新同一份内部状态。 这就是 HRM 和普通“多智能体套壳”的本质区别。普通多智能体系统，往往是几个 LLM 用自然语言互相聊天；HRM 则是在模型内部完成分层递归计算。

通俗地打个比方：标准 Transformer 像一篇文章依次交给 30 个编辑，每人只改一次；HRM 更像两组编辑反复打磨同一份稿子，一组快速改细节，一组慢慢把握整体方向。最后输出之前，模型已在脑内完成了多轮修正。

所以 HRM-Text 和普通小模型的真正区别在于，它不是只靠参数数量获得能力，而是让有限参数参与更深层的有效计算。它改变的不是“有多少参数”，而是模型“怎么算”。

HRM-Text 到底做对了什么？

如果把 HRM-Text 讲得太技术，很容易变成论文摘要。它真正做对的事，可以用三句话讲清楚。

第一，改变了模型“怎么算”。 HRM-Text 不是简单堆更多层，而是让模型在输出前做多轮内部递归计算。参数没有无限变大，但计算过程变深了。

第二，改变了模型“学什么”。 大多数语言模型训练时，会预测整个文本序列里的每一个 token，问题、提示、上下文、答案统统要预测。而 HRM-Text 更直接，它用 instruction-response 数据从零训练，但只对回答部分计算损失。这不意味着指令部分没用——指令仍然作为上下文参与注意力计算，回答部分的损失也会反向影响模型如何理解指令。但模型不再被要求学习“预测题目本身”，而是将训练信号更集中地用于生成答案、完成任务。就像老师批卷子时，只给答案打分，不再给抄题打分。

这背后配套的是 PrefixLM attention mask。指令部分可以充分整合上下文，回答部分再按因果生成方式输出。结果就是在 decoder-only 的实现里，做出了一种近似 encoder-decoder 的效果。训练信号被重新分配，模型更集中地学习如何完成任务。

PrefixLM与Causal模型在损失、各层熵值及注意力热力图上的对比分析

第三，它解决了递归训练容易崩溃的问题。 递归架构并非新概念，但难点在于，循环越深，训练越容易不稳定。激活值方差累积，梯度更容易消失或爆炸。HRM-Text 引入了 MagicNorm 和 warmup deep credit assignment，让模型在多轮递归中保持激活稳定，并逐步加深信用分配。通俗讲，不是一上来就让模型为所有深层递归步骤负责，而是先让它学会短路径上的内部计算，再慢慢把责任扩展到更深的推理过程。

这三件事合在一起，才是 HRM-Text 的核心：架构负责“怎么想”，目标负责“学什么”，训练方法负责“想得深还不崩”。这是一套新的基础模型设计方法，把内部计算深度、任务完成目标和稳定递归训练放在同一个系统里共同设计。

在相同训练 FLOPs 条件下，ARC-Challenge 从 51.9 提升到 81.9；MATH 从 35.4 提升到 56.2；GSM8K 从 48.4 提升到 84.5。这足以说明，HRM-Text 的表现不是来自某个单点 trick，而是架构、训练目标和训练方法共同作用的结果。它重新定义了有限参数如何参与更深层的内部计算。

数据量上，HRM-Text 仅使用约 40B unique tokens 训练（考虑重复后总训练量约 60B tokens）。对比之下，Llama 3.2 3B 使用约 9T tokens，是其 225 倍；Qwen3 系列 2B 更是达到约 900 倍量级。

HRM-Text核心训练参数：1B参数、1天训练、40B tokens、约1000美元成本

但在多个 reasoning-heavy benchmarks 上，HRM-Text 已经可以和一批 2B 到 7B 的主流开源模型放到同一张表里比较。

HRM-Text与Open weight模型在多个NLP基准上的详细性能对比表格

这才是 HRM-Text 真正反常的地方：它不是用更多参数、更长训练、更大数据，把旧路线继续往前推一点，而是用新的计算结构，把有限参数的有效计算深度重新拉起来。

当然，这样的结果一定会引发对训练数据和评测数据污染的关切。Sapient 对此做了系统验证：HRM-Text 只使用公开且可追溯来源的数据，并针对评测集进行了严格的数据污染分析。在更严格的 clean split 条件下，模型仍然保持优势，说明它的表现不是来自测试集泄漏，而是架构和训练方法本身的提升。

正因如此，HRM-Text 的意义不是“1B 模型已经赢了”，而是让行业看到了一个新的可能性——模型能力增长，除了参数、数据和算力之外，也许还有另一个更底层的变量：计算结构。

更大的信号：Bengio 团队也走向了同一条路

HRM-Text 发布前后，另一个信号也值得注意。图灵奖得主 Yoshua Bengio 作为共同作者参与了《Generative Recursive Reasoning Models》，也就是 GRAM。

Bengio合著的Generative Recursive Reasoning论文标题页

这篇论文不是继续在传统 Transformer 上堆规模，而是把 recursive reasoning、latent reasoning 和 generative modeling 放到了一起。更准确地说，GRAM 在核心计算骨架上高度复用了 HRM 的设计——高层状态、低层状态、双时间尺度、潜空间递归、输出前的多轮内部计算。这与 HRM 的几大核心要素几乎一一对应。

一只表情困惑的猫，寓意‘巧合’

当然，GRAM 并非简单重复。它在 HRM 的确定性递归骨架之上，加入了 prior、posterior、decoder 等概率生成模块，把分层递归推理进一步扩展成一个概率化、多轨迹的生成式推理框架。如果说 HRM 先提出并验证了“高层—低层双时间尺度递归推理”这条路线，那么 GRAM 更像是在这个骨架上增加了一层 generative probabilistic wrapper。

GRAM 的出现，反而让 HRM 作为先行者的重要性更突出。这说明 Sapient 不只是参与了下一代推理模型的讨论，而是提前给出了一个正在被顶尖研究者复用和扩展的基本结构。在此意义上，HRM 已经不只是一个模型架构名词，而开始成为下一代推理模型研究中的一个参照系。

从更大的视角看，HRM-Text 的深层意义在于，它可能标志着一个转向：AI 推理正从“写出思维链”，转向“形成内部思维结构”。 HRM 先把高层—低层双时间尺度递归推理做成了可运行系统，GRAM 则进一步把它推进到概率生成的方向。这就像一个早期信号，预示着下一代推理模型不该只靠输出更长的文字链条，而应在潜空间中进行更深层的内部计算。

1500 美元真正打破的，不只是训练成本

1500 美元当然不是终点，它也不意味着基础模型研发已经变得简单。HRM-Text 仍然是概念验证（Proof of Concept），在知识覆盖、长上下文、工具使用和规模化能力上还需要继续检验。

但这个数字真正刺痛行业的地方在于：它让基础模型研发重新出现了另一种可能性。

一只表情得意的猫，寓意新可能的出现

过去几年，基础模型越来越像一项重工业——更大的 GPU 集群，更长的训练周期，更复杂的数据工程。行业很容易形成惯性：只有巨头才能探索基础模型，只有巨额算力才能验证新架构，只有 Scaling 才是唯一正解。

HRM-Text 的出现并非否定 Scaling，但它提醒行业：Scaling 不是唯一入口。 如果模型架构本身能提高计算效率，如果训练目标能更聚焦，如果知识存储与推理能力可以解耦，那么基础模型创新就不一定只能由算力规模定义。

对企业来说，当前 AI 落地的核心痛点不只是模型能力不够，而是训练贵、基础设施重、迭代慢、试错成本高。HRM-Text 提供的启发是：如果模型架构本身能够提高计算效率，那么企业构建 AI 能力不必完全依赖更大的模型和更重的基础设施。

对研究社区而言，它让更多架构假设有机会被验证。当验证一条路线需要巨额资源时，许多更早、更冒险、也可能更具突破性的方向，往往在进入充分实验前就被过滤掉了。Sapient 率先跑通了另一条路，并把它做成了可被行业检验的样本。架构、训练目标、递归计算和开源验证，同样可以成为推动前沿 AI 的关键力量。

HRM 的下一步：不是更会聊天，而是更会工作

Sapient 对 HRM 的长期判断可以概括为：模型不需要记住一切，但需要学会如何思考、如何查找、如何学习、如何使用信息。 这就是“推理-知识解耦”（reasoning-knowledge decoupling）。

初期，它可以像 RAG 一样接入外部知识。但更进一步，HRM 的目标是让模型拥有一个更强的推理核心，知道该查什么、去哪查、如何判断信息是否可靠、如何把新知识学进当前任务，并知道如何制定计划、调用工具、验证结果，把一个复杂任务真正做完。

人也不是把全世界知识都背在脑子里。真正聪明的人，是知道问题的结构，知道该找谁、查什么、怎么验证、如何行动。HRM 与普通聊天模型的区别在于，聊天模型的核心是“怎么回答”，而 HRM 更关心“怎么完成任务”。

因此，它未来可作为底层推理内核（Reasoning Core）扮演多种角色：Reliability Diagnostician 诊断复杂系统并生成修复方案、System Optimizer 发现性能瓶颈并执行优化、Data Organizer 把企业杂乱的知识组织成可推理的记忆系统、Tool Calling Director 决定何时调用哪个工具并验证结果。

这意味着 HRM 的商业潜力不只是“训练便宜”，更在于它可能改变企业构建 AI 能力的方式。它想象的结构是：底层是更强的推理核心，外部接入知识库、工具和反馈；模型不需要记住一切，但要知道如何组织任务、使用信息并验证结果。所以，HRM 的下一步，不是更会聊天，而是更会工作。

从符号到文本，再到世界模型

HRM 的路线也不止于语言。Sapient 先从 symbolic reasoning 开始，用数独、迷宫、ARC-AGI 证明了分层递归推理可行；接着推进到 HRM-Text，把这套架构带入自然语言；下一步，很自然就是图像、视频、音频、机器人以及世界模型（world models）。

因为 HRM 处理的并非某一种数据格式，而是更底层的结构：状态、关系、约束、计划、行动、反馈。这就是它的 omni-modal 潜力。符号、文本、图像、视频、音频，本质上都可以变成模型内部的状态空间。如果 HRM 能在不同模态中学会“如何组织状态、如何预测变化、如何规划行动”，它就可能成为世界模型的一种候选架构。

这也是具身智能（embodied AI）最需要的能力——理解环境，预测后果，制定动作，并在失败后修正。对这样的系统，说出一句漂亮的话没有意义，真正重要的是：想清楚，然后做对。 HRM-Text 的发布，正是这条路线从符号推理推向开放世界的一次阶段性验证。

Lean General Intelligence：AI 的未来不该只有一条路

HRM 背后，是 Sapient 对通用智能的一种长期判断：先进 AI 的探索，不应只是一条被资源规模不断加固的单一路径，而应是一场由更多研究者、开发者和社区共同推进的技术进程。Sapient 将自己的路线概括为 Lean General Intelligence。

Sapient Intelligence宣传图，标语为The Lean General Intelligence

这里的 Lean，不是“小”，也不是便宜，而是更高效、更可及、更强调计算结构本身。当训练成本越来越高，Token 账单越来越重，企业越来越需要可控、可验证、可定制的智能系统时，继续扩大模型是不是唯一答案？

HRM 给出了另一个答案： 不是背下更多知识，而是拥有更强的推理核心；不是输出更长 CoT，而是在潜空间中完成更深计算；不是把所有能力塞进一个黑箱大模型，而是把推理、知识、工具、记忆和行动重新组织起来。

如果说过去几年行业的主线是 Scaling，那么接下来，推理模型可能迎来一个新问题：模型到底要更大，还是要更会思考？ Sapient 的答案很明确——HRM。而 HRM-Text，是这条路线首次进入基础语言模型语境的公开样本。它还早，但它足够重要。因为它提醒整个行业：AI 的未来，不该只有一条路。

从 HRM-Symbolic 到 HRM-Text，再到 Bengio 参与的 GRAM 对 HRM 骨架的高度复用，分层递归推理已不只是 Sapient 的内部路线，而正成为下一代推理模型的重要方向。Sapient 的意义正在于此：它不是在追随已有的答案，而是在提前给出一个可运行、可开源、可验证的新答案。

论文链接： https://arxiv.org/abs/2605.20613
GitHub 链接： https://github.com/sapientinc/HRM-Text
HuggingFace 链接： https://huggingface.co/sapientinc/HRM-Text-1B

技术的本质是探索未知，而每一次架构上的微小改变，都可能为整个领域撕开一个新的突破口。无论你是关注前沿的研究者，还是在寻找工程落地方案的开发者，保持对多元技术路线的关注，永远是应对变化的最好方式。如果你也对 AI 架构、开源实战以及云原生技术栈感兴趣，云栈社区提供了从深度学习、模型部署到开源项目剖析的深度技术内容，或许能成为你探索路上的一个技术驿站。

上一篇：Codex官方工作流详解：从Computer Use到AI科研的实战指南
下一篇：Agent终于有了身体：Jiuwen Symbiosis物理AI共生架构深度解析与实践

HRM, 小模型, 预训练, 语言模型, 推理架构