好家伙,这次不是模型圈自嗨。
一个训练成本约 1500美元、参数量约 1B、从零开始预训练的小模型,把 HRM(Hierarchical Reasoning Model,分层递归推理模型)推到了下一代推理架构讨论的中心。
HuggingFace 联合创始人兼 CEO Clem Delangue 亲自转发推荐。图灵奖得主 Yoshua Bengio 作为共同作者参与的新论文,也走向了同一条潜空间递归推理(latent recursive reasoning)路线。
更反常的是,它既不是蒸馏,不是微调,也不是在已有大模型能力上套壳。
它就是 Sapient Intelligence 发布的 HRM-Text。

如果只看参数量,很容易把它写成一个熟悉的故事:“小模型又赢了。”
但 HRM-Text 真正值得注意的地方,不是小,也不是便宜。而是它背后那套 HRM 架构,正在追问一个更底层的问题:
模型到底需要记住全世界,还是需要学会如何思考、如何查找、如何验证、如何行动?
过去几年,大模型行业的默认答案很简单:参数更多,数据更多,训练更久,Token更长。
HRM 走的是另一条路。 它不继续把模型做成一个越来越大的知识仓库,而是试图把模型打造成一个更强的推理核心。如果说大模型像一个背着图书馆的学生,那 HRM 更像一个会解题、会查资料、会复盘、会行动的人。
真正让技术圈认真讨论 HRM-Text 的,不是一次转发,而是一组很反常的数字。

一个约1B参数的模型,在 MATH 上拿到 56.2,在 GSM8K 上拿到 84.5,在 ARC-Challenge 上拿到 81.9,在 DROP 上拿到 82.2。训练成本约 1500 美元,16块 H100 跑了不到两天,没有 post-training,没有 RLHF,也没有依赖显式思维链(Chain-of-Thought)数据。团队同步开放了论文、模型权重和预训练代码。
这意味着,HRM-Text 并不是在现有大模型能力上做包装,而是在基础预训练阶段,直接验证一种新的架构路线。这更像是一次推理模型的换脑实验:不让模型说出更多思维链,而是让它在开口之前,先在内部完成多轮递归计算。
很快,这条路线也出现在了更高层级的学术讨论中。图灵奖得主 Yoshua Bengio 作为共同作者参与的 《Generative Recursive Reasoning》 提出了 GRAM。它在核心计算结构上高度复用了 HRM 的分层递归骨架:同样是高层状态、低层状态、双时间尺度、多轮递归更新,只是在此之上进一步加入了概率生成模块。
Sapient 并非等行业给出答案之后再追随,而是先把一个关键问题抛了出来,并率先拿出了可运行、可开源、可验证的模型系统:模型能否在输出之前,通过潜空间中的多轮分层递归计算,完成更深层的内部推理?
HRM-Text 的问题因此不只是“一个1B模型为什么能做到这些 benchmark?”,更关键的是:Sapient 是否提前验证了一条下一代推理模型值得认真对待的新路线?
知识不等于智能,CoT 也不等于思考
现在的推理模型,很多时候像是在“边说边想”。Chain-of-Thought 把推理过程写成一串 token,让模型一步一步输出中间过程。这当然有用,但问题也很明显:Token 越来越长,账单越来越高;中间一步错了,后面就可能一路错下去;更根本的是,推理过程被绑定在语言表面,模型很容易学到“像推理的文本”,却不一定真的掌握了“推理的结构”。
HRM 问的是一个更激进的问题:推理为什么一定要写出来?
人类做很多题,并不是把脑内每一步都说成一句话。我们会在脑子里反复尝试、修正、排除、回退,最后才说出答案。HRM 想做的,正是把草稿纸从嘴上拿下来,放回模型的脑子里。这就是 潜空间推理(latent reasoning)——不是让模型输出更长的思维链,而是让模型在输出之前,在内部状态里完成多轮计算。
Sapient 从一开始押注的就不是“小模型”,而是 分层递归推理模型(HRM)。在大多数团队仍围绕 Transformer 做参数、数据和训练技巧优化时,Sapient 选择把问题推到更底层:如果智能不只来自规模扩张,而是来自计算过程的组织方式,那么模型架构本身是否应该被重新设计?
HRM 的核心思想,是让模型在输出之前,于潜空间中完成多轮、分层、递归的状态更新。

2025 年,Sapient 推出 HRM-Symbolic。这个模型主要面向数独、迷宫、ARC-AGI 等封闭、可验证、强推理任务。这类任务规则明确,状态空间可验证,对组合搜索和多步推理要求极高,非常适合先回答一个问题:分层递归推理这条架构路线,到底能不能行?
HRM 的原始论文里,一个 27M 参数模型在没有预训练、没有 CoT 数据、只用约 1000 个训练样本的情况下,在 Sudoku-Extreme、Maze-Hard 和 ARC-AGI 等强推理任务上取得了非常突出的结果。这一步回答了一个问题:在封闭、可验证、强推理任务里,HRM 这条路线能跑通。
但数独不是语言,迷宫也不是开放世界。于是,HRM-Text 回答了第二个更难的问题:把任务放进自然语言世界,HRM还行不行?
这比简单放大模型更难。语言更开放、更模糊,输出形式更灵活,训练也更容易不稳定。所以 HRM-Text 的意义,不是把 HRM-Symbolic 放大一点而已,它是在验证分层递归推理这套架构,能否进入基础语言模型。从 HRM-Symbolic 到 HRM-Text,Sapient 做的是一次技术路线的连续推进:先在封闭任务中验证架构假设,再扩展到开放语言环境,并同步开放论文、代码、权重和训练方法,让整条路线可以被复现、质疑、比较和继续验证。
HRM 的核心:模型里长出两个“脑区”
标准 Transformer 像一条流水线,输入进来,逐层处理,每层处理一次,最后输出。增加能力的直接方式就是堆叠层数、参数和训练数据。
HRM 的思路则不同,它在模型内部放了两个以不同节奏工作的模块:一个是 高层模块 H,一个是 低层模块 L。可以把它理解成两个协同工作的“脑区”。

H 是战略脑,更新得慢,负责把握整体方向、维持长期上下文、决定当前应该往哪里想。L 是执行脑,更新得快,负责局部计算、细节修正、一步步把问题往前推。
关键区别在于,H 和 L 不是两个外部 Agent,也不是两个模型互相发消息。它们在同一个神经网络里,在同一个潜空间中,反复更新同一份内部状态。 这就是 HRM 和普通“多智能体套壳”的本质区别。普通多智能体系统,往往是几个 LLM 用自然语言互相聊天;HRM 则是在模型内部完成分层递归计算。
通俗地打个比方:标准 Transformer 像一篇文章依次交给 30 个编辑,每人只改一次;HRM 更像两组编辑反复打磨同一份稿子,一组快速改细节,一组慢慢把握整体方向。最后输出之前,模型已在脑内完成了多轮修正。
所以 HRM-Text 和普通小模型的真正区别在于,它不是只靠参数数量获得能力,而是让有限参数参与更深层的有效计算。它改变的不是“有多少参数”,而是模型“怎么算”。
HRM-Text 到底做对了什么?
如果把 HRM-Text 讲得太技术,很容易变成论文摘要。它真正做对的事,可以用三句话讲清楚。
第一,改变了模型“怎么算”。 HRM-Text 不是简单堆更多层,而是让模型在输出前做多轮内部递归计算。参数没有无限变大,但计算过程变深了。
第二,改变了模型“学什么”。 大多数语言模型训练时,会预测整个文本序列里的每一个 token,问题、提示、上下文、答案统统要预测。而 HRM-Text 更直接,它用 instruction-response 数据从零训练,但只对回答部分计算损失。这不意味着指令部分没用——指令仍然作为上下文参与注意力计算,回答部分的损失也会反向影响模型如何理解指令。但模型不再被要求学习“预测题目本身”,而是将训练信号更集中地用于生成答案、完成任务。就像老师批卷子时,只给答案打分,不再给抄题打分。
这背后配套的是 PrefixLM attention mask。指令部分可以充分整合上下文,回答部分再按因果生成方式输出。结果就是在 decoder-only 的实现里,做出了一种近似 encoder-decoder 的效果。训练信号被重新分配,模型更集中地学习如何完成任务。

第三,它解决了递归训练容易崩溃的问题。 递归架构并非新概念,但难点在于,循环越深,训练越容易不稳定。激活值方差累积,梯度更容易消失或爆炸。HRM-Text 引入了 MagicNorm 和 warmup deep credit assignment,让模型在多轮递归中保持激活稳定,并逐步加深信用分配。通俗讲,不是一上来就让模型为所有深层递归步骤负责,而是先让它学会短路径上的内部计算,再慢慢把责任扩展到更深的推理过程。
这三件事合在一起,才是 HRM-Text 的核心:架构负责“怎么想”,目标负责“学什么”,训练方法负责“想得深还不崩”。这是一套新的基础模型设计方法,把内部计算深度、任务完成目标和稳定递归训练放在同一个系统里共同设计。
在相同训练 FLOPs 条件下,ARC-Challenge 从 51.9 提升到 81.9;MATH 从 35.4 提升到 56.2;GSM8K 从 48.4 提升到 84.5。这足以说明,HRM-Text 的表现不是来自某个单点 trick,而是架构、训练目标和训练方法共同作用的结果。它重新定义了有限参数如何参与更深层的内部计算。
数据量上,HRM-Text 仅使用约 40B unique tokens 训练(考虑重复后总训练量约 60B tokens)。对比之下,Llama 3.2 3B 使用约 9T tokens,是其 225 倍;Qwen3 系列 2B 更是达到约 900 倍量级。

但在多个 reasoning-heavy benchmarks 上,HRM-Text 已经可以和一批 2B 到 7B 的主流开源模型放到同一张表里比较。

这才是 HRM-Text 真正反常的地方:它不是用更多参数、更长训练、更大数据,把旧路线继续往前推一点,而是用新的计算结构,把有限参数的有效计算深度重新拉起来。
当然,这样的结果一定会引发对训练数据和评测数据污染的关切。Sapient 对此做了系统验证:HRM-Text 只使用公开且可追溯来源的数据,并针对评测集进行了严格的数据污染分析。在更严格的 clean split 条件下,模型仍然保持优势,说明它的表现不是来自测试集泄漏,而是架构和训练方法本身的提升。
正因如此,HRM-Text 的意义不是“1B 模型已经赢了”,而是让行业看到了一个新的可能性——模型能力增长,除了参数、数据和算力之外,也许还有另一个更底层的变量:计算结构。
更大的信号:Bengio 团队也走向了同一条路
HRM-Text 发布前后,另一个信号也值得注意。图灵奖得主 Yoshua Bengio 作为共同作者参与了《Generative Recursive Reasoning Models》,也就是 GRAM。

这篇论文不是继续在传统 Transformer 上堆规模,而是把 recursive reasoning、latent reasoning 和 generative modeling 放到了一起。更准确地说,GRAM 在核心计算骨架上高度复用了 HRM 的设计——高层状态、低层状态、双时间尺度、潜空间递归、输出前的多轮内部计算。这与 HRM 的几大核心要素几乎一一对应。

当然,GRAM 并非简单重复。它在 HRM 的确定性递归骨架之上,加入了 prior、posterior、decoder 等概率生成模块,把分层递归推理进一步扩展成一个概率化、多轨迹的生成式推理框架。如果说 HRM 先提出并验证了“高层—低层双时间尺度递归推理”这条路线,那么 GRAM 更像是在这个骨架上增加了一层 generative probabilistic wrapper。
GRAM 的出现,反而让 HRM 作为先行者的重要性更突出。这说明 Sapient 不只是参与了下一代推理模型的讨论,而是提前给出了一个正在被顶尖研究者复用和扩展的基本结构。在此意义上,HRM 已经不只是一个模型架构名词,而开始成为下一代推理模型研究中的一个参照系。
从更大的视角看,HRM-Text 的深层意义在于,它可能标志着一个转向:AI 推理正从“写出思维链”,转向“形成内部思维结构”。 HRM 先把高层—低层双时间尺度递归推理做成了可运行系统,GRAM 则进一步把它推进到概率生成的方向。这就像一个早期信号,预示着下一代推理模型不该只靠输出更长的文字链条,而应在潜空间中进行更深层的内部计算。
1500 美元真正打破的,不只是训练成本
1500 美元当然不是终点,它也不意味着基础模型研发已经变得简单。HRM-Text 仍然是概念验证(Proof of Concept),在知识覆盖、长上下文、工具使用和规模化能力上还需要继续检验。
但这个数字真正刺痛行业的地方在于:它让基础模型研发重新出现了另一种可能性。

过去几年,基础模型越来越像一项重工业——更大的 GPU 集群,更长的训练周期,更复杂的数据工程。行业很容易形成惯性:只有巨头才能探索基础模型,只有巨额算力才能验证新架构,只有 Scaling 才是唯一正解。
HRM-Text 的出现并非否定 Scaling,但它提醒行业:Scaling 不是唯一入口。 如果模型架构本身能提高计算效率,如果训练目标能更聚焦,如果知识存储与推理能力可以解耦,那么基础模型创新就不一定只能由算力规模定义。
对企业来说,当前 AI 落地的核心痛点不只是模型能力不够,而是训练贵、基础设施重、迭代慢、试错成本高。HRM-Text 提供的启发是:如果模型架构本身能够提高计算效率,那么企业构建 AI 能力不必完全依赖更大的模型和更重的基础设施。
对研究社区而言,它让更多架构假设有机会被验证。当验证一条路线需要巨额资源时,许多更早、更冒险、也可能更具突破性的方向,往往在进入充分实验前就被过滤掉了。Sapient 率先跑通了另一条路,并把它做成了可被行业检验的样本。架构、训练目标、递归计算和开源验证,同样可以成为推动前沿 AI 的关键力量。
HRM 的下一步:不是更会聊天,而是更会工作
Sapient 对 HRM 的长期判断可以概括为:模型不需要记住一切,但需要学会如何思考、如何查找、如何学习、如何使用信息。 这就是“推理-知识解耦”(reasoning-knowledge decoupling)。
初期,它可以像 RAG 一样接入外部知识。但更进一步,HRM 的目标是让模型拥有一个更强的推理核心,知道该查什么、去哪查、如何判断信息是否可靠、如何把新知识学进当前任务,并知道如何制定计划、调用工具、验证结果,把一个复杂任务真正做完。
人也不是把全世界知识都背在脑子里。真正聪明的人,是知道问题的结构,知道该找谁、查什么、怎么验证、如何行动。HRM 与普通聊天模型的区别在于,聊天模型的核心是“怎么回答”,而 HRM 更关心“怎么完成任务”。
因此,它未来可作为底层推理内核(Reasoning Core)扮演多种角色:Reliability Diagnostician 诊断复杂系统并生成修复方案、System Optimizer 发现性能瓶颈并执行优化、Data Organizer 把企业杂乱的知识组织成可推理的记忆系统、Tool Calling Director 决定何时调用哪个工具并验证结果。
这意味着 HRM 的商业潜力不只是“训练便宜”,更在于它可能改变企业构建 AI 能力的方式。它想象的结构是:底层是更强的推理核心,外部接入知识库、工具和反馈;模型不需要记住一切,但要知道如何组织任务、使用信息并验证结果。所以,HRM 的下一步,不是更会聊天,而是更会工作。
从符号到文本,再到世界模型
HRM 的路线也不止于语言。Sapient 先从 symbolic reasoning 开始,用数独、迷宫、ARC-AGI 证明了分层递归推理可行;接着推进到 HRM-Text,把这套架构带入自然语言;下一步,很自然就是图像、视频、音频、机器人以及世界模型(world models)。
因为 HRM 处理的并非某一种数据格式,而是更底层的结构:状态、关系、约束、计划、行动、反馈。这就是它的 omni-modal 潜力。符号、文本、图像、视频、音频,本质上都可以变成模型内部的状态空间。如果 HRM 能在不同模态中学会“如何组织状态、如何预测变化、如何规划行动”,它就可能成为世界模型的一种候选架构。
这也是具身智能(embodied AI)最需要的能力——理解环境,预测后果,制定动作,并在失败后修正。对这样的系统,说出一句漂亮的话没有意义,真正重要的是:想清楚,然后做对。 HRM-Text 的发布,正是这条路线从符号推理推向开放世界的一次阶段性验证。
Lean General Intelligence:AI 的未来不该只有一条路
HRM 背后,是 Sapient 对通用智能的一种长期判断:先进 AI 的探索,不应只是一条被资源规模不断加固的单一路径,而应是一场由更多研究者、开发者和社区共同推进的技术进程。Sapient 将自己的路线概括为 Lean General Intelligence。

这里的 Lean,不是“小”,也不是便宜,而是更高效、更可及、更强调计算结构本身。当训练成本越来越高,Token 账单越来越重,企业越来越需要可控、可验证、可定制的智能系统时,继续扩大模型是不是唯一答案?
HRM 给出了另一个答案: 不是背下更多知识,而是拥有更强的推理核心;不是输出更长 CoT,而是在潜空间中完成更深计算;不是把所有能力塞进一个黑箱大模型,而是把推理、知识、工具、记忆和行动重新组织起来。
如果说过去几年行业的主线是 Scaling,那么接下来,推理模型可能迎来一个新问题:模型到底要更大,还是要更会思考? Sapient 的答案很明确——HRM。而 HRM-Text,是这条路线首次进入基础语言模型语境的公开样本。它还早,但它足够重要。因为它提醒整个行业:AI 的未来,不该只有一条路。
从 HRM-Symbolic 到 HRM-Text,再到 Bengio 参与的 GRAM 对 HRM 骨架的高度复用,分层递归推理已不只是 Sapient 的内部路线,而正成为下一代推理模型的重要方向。Sapient 的意义正在于此:它不是在追随已有的答案,而是在提前给出一个可运行、可开源、可验证的新答案。
论文链接: https://arxiv.org/abs/2605.20613
GitHub 链接: https://github.com/sapientinc/HRM-Text
HuggingFace 链接: https://huggingface.co/sapientinc/HRM-Text-1B
技术的本质是探索未知,而每一次架构上的微小改变,都可能为整个领域撕开一个新的突破口。无论你是关注前沿的研究者,还是在寻找工程落地方案的开发者,保持对多元技术路线的关注,永远是应对变化的最好方式。如果你也对 AI 架构、开源实战以及云原生技术栈感兴趣,云栈社区 提供了从深度学习、模型部署到开源项目剖析的深度技术内容,或许能成为你探索路上的一个技术驿站。