云栈社区»论坛 › 技术文档「 Note & Doc 」 › 清华团队ICLR 2026研究：揭示大模型无监督强化学习的内在边界与 ...

发回帖发新帖

5282 积分	0 好友	719 主题

发消息

清华团队ICLR 2026研究：揭示大模型无监督强化学习的内在边界与外部路径

发表于 2026-3-22 03:08:59 | 查看: 144| 回复: 0

强化学习的下一站：从监督到无监督

强化学习正在重塑大模型的能力边界。从 OpenAI o3、DeepSeek-R1 到 Gemini 3，顶尖模型都在用大规模 RLVR（可验证奖励强化学习）不断刷新推理任务的天花板。

但所有人都清楚一个现实：纯监督式训练是不可持续的。人工标注的成本呈指数级增长，在专业领域获取可靠标注越来越困难。当模型的能力逼近甚至超越人类专家时，谁来给它打分？

于是，无监督 RLVR（Unsupervised RLVR）应运而生，其核心目标是让模型在没有人工标注的情况下持续进化。这不仅是降本增效的需求，更被视为通往更高级智能的必经之路。就像预训练用海量无标注数据训练出了 GPT 系列，无监督 RLVR 能否在强化学习领域延续这一奇迹？

ICLR 2026论文《How Far Can Unsupervised RLVr Scale LLM Training?》标题页

论文链接: https://arxiv.org/abs/2603.08660
GitHub: https://github.com/PRIME-RL/TTRL/tree/urlvr-dev
X Thread: https://x.com/HBX_hbx/status/2031406636930338828

清华大学团队的一项最新研究，为这个看似美好的图景勾勒出了第一条清晰的边界。研究者系统性地剖析了无监督 RLVR 的内在机制，发现所有基于模型自身信号的内在奖励方法——无论是多数投票、熵奖励还是其他变体——都遵循着一条相似的轨迹：训练初期性能快速攀升，但到达某个临界点后，便开始不可逆地滑落。

这不是某个特定方法的缺陷，而是其内在机制的必然宿命：这些方法本质上都在“锐化”模型已有的偏好，就像一个回声室，让模型不断重复并强化自己最初相信的东西。如果初始的自信恰好与正确性对齐，效果可能惊人；但如果两者错配，模型的“坍塌”就只是时间问题。

但这并不意味着内在奖励毫无价值。在特定的小规模场景（如 Test-Time Training）中，它依然能稳定提升性能。更重要的是，研究者找到了一个“预言指标”，可以在投入大规模训练资源之前，预判模型的“可训练性”，避免无效的试错。

当内在奖励受限于模型自身的“回声”时，基于外部奖励的方法开始展现出不同的潜力，例如利用“生成”与“验证”之间的不对称性来锚定奖励信号。这类方法正在试图突破内在奖励的天花板，让无监督强化学习真正走向可扩展。

通往更强大智能的道路上，我们需要的或许不是盲目相信模型可以自我进化，而是清楚地知道：什么时候该让它倾听自己的回声，什么时候该把它推向真实世界的客观验证。

关于内在奖励与外部奖励的学术总结图表

内在奖励方法：繁荣表象下的深层问题

过去一年，各种“内在奖励”方法密集涌现。从多数投票到基于模型自信度或熵的各种变体，它们都试图利用模型自身的内在信号来构造代理奖励（proxy reward）。在训练前期，这些方法往往能带来性能的飙升，甚至一度超过有监督的方法。

研究者将这些方法根据奖励信号的来源归纳为两类：

基于确定性（Certainty-Based）：直接取模型在推理轨迹上的置信度指标（如概率、熵）作为奖励。
基于集成（Ensemble-Based）：通过多次采样生成（rollout）后，用集成结果（如多数投票）来判断答案的正确性，并以此作为奖励。

五种内在奖励方法及其公式对照表

然而，免费的奖励信号背后，往往隐藏着昂贵的代价。在早期性能飙升之后，继续训练通常会触发典型的“奖励黑客”（reward hacking）现象：

代理奖励（proxy reward）的数值可能还在持续上涨，但模型在真实任务上的性能（performance）却已经开始崩溃。
模型对自身生成的答案越来越“自信”，但这些答案却可能越来越离谱。
不同的内在奖励方法，在不同的大语言模型上表现差异巨大，缺乏一致性。

更关键的问题是，没人能说清楚这些方法为什么有效，又为什么最终会失效。这种不确定性，严重阻碍了无监督 RLVR 的可扩展性。

核心工作：拆开黑箱，划清边界

研究者没有止步于提出另一个“刷点”的新方法，而是致力于回答那个根本性问题：无监督 RLVR 的扩展上限究竟在哪里？如果存在上限，它的边界又由什么决定？

为此，他们从五个维度展开了系统性研究：

建立统一理论框架：将五花八门的内在奖励方法归结到同一个机制之下，揭示其“殊途同归”的本质——锐化模型的初始分布，并给出了理论上的收敛边界。
进行大规模实证分析：在11个不同模型、5种内在奖励方法上进行广泛的超参数扫描，用数据证实“先升后降”并非偶然，而是一个普遍规律。
界定“安全区”：研究发现，并非所有场景都会崩溃。在小规模的测试时训练（Test-Time Training）中，内在奖励可以安全使用，即使初始答案全错，模型也能稳定进化。
化“陷阱”为“路标”：“上升-下降”曲线本身蕴含着信息。研究者据此提炼出一个轻量级的模型先验指示器，无需跑完昂贵的完整RL训练曲线，就能预判一个基座模型是否适合进行强化学习。
探索替代方案：既然内在奖励存在天花板，研究者将目光投向外部奖励方法。他们初步探索了基于“生成-验证不对称性”的外部奖励，检验其能否真正突破内在奖励的扩展极限。

四个关键发现

🔍 发现一：成败取决于“置信度-正确性”的对齐程度

研究者建立的理论框架揭示，所有内在奖励方法的本质是 “锐化分布”，即放大模型已有的偏好，而非创造新的知识。这一机制导致了一个关键特性：

如果模型初始的倾向是正确的 -> 锐化有效，性能提升。
如果模型初始的倾向是错误的 -> 锐化有害，加速崩溃。

他们定义模型的这种初始倾向为 “置信度-正确性”对齐程度。一个先验较强的模型，本身已经掌握了解决问题的大部分知识，只是不够“自信”以至于无法稳定输出正确答案。

在对11个模型、5种方法进行大规模测试后，结论似乎有些残酷：崩溃几乎不可避免，只是个时间问题。即使是最稳定的配置也撑不过几个训练周期（epoch）。这表明问题可能并非工程上的瑕疵，而是数学上的必然。

描述模型训练初期增益与后期崩溃的曲线图

展示不同数据样本上置信度与正确性分类的条形图

左图：模型训练的成败取决于初始置信度与正确性的对齐程度；右图：单条数据上置信度与正确性随训练过程的演化。

✅ 发现二：小规模场景下反而安全

“先升后降”虽是普遍宿命，但有其适用范围。当训练数据量足够少时，比如在特定领域的测试时训练（Test-Time Training）场景中，内在奖励方法反而展现出难得的稳定性。

原因很直观：只在少量样本上优化模型的“自信度”，模型的优化很快就会达到局部饱和。即便它在这些少数样本上变得“超级自信”，也难以引发全局性的策略偏移，因此在分布外（OOD）任务上的准确率依然能保持稳定。

一个更极端的实验是：研究者刻意选取了32条模型初始回答全部错误的样本作为训练集。也就是说，内在奖励给出的代理奖励从一开始就是错的。结果如何？在OOD测试集上，模型的性能依然得到了稳定提升。

这说明，内在奖励主要是在教模型“更相信自己”，而不是在教它“什么是对的”。即使“信错了”，这种自我强化也被牢牢限制在局部数据上，难以泛化造成全局性灾难。

展示不同规模数据集下模型性能演变的曲线图

展示不同训练集规模下策略KL散度变化的折线图

左图：小规模测试时训练（TTT）下性能稳定提升，未发生崩溃；右图：不同训练集规模下，策略相对于初始策略的KL散度偏移。

🎯 发现三：如何判断一个模型是否“适合做RL”

“上升-下降”曲线不仅是风险信号，其本身也承载着有价值的信息。既然内在奖励的成败取决于模型初始的“置信度-正确性”对齐度，那么能否利用这个对齐度，提前判断一个基座模型是否适合进行强化学习呢？毕竟，跑一次大规模RL训练的成本非常高昂。

研究者找到了一把“尺子”：模型坍塌步数，即测量一个模型在内在奖励训练下，能坚持多少步才发生完全崩溃。逻辑很简单：崩溃得越晚，说明模型的初始先验越好，它本身就掌握了更多正确的知识，只是不够自信。而这种良好的先验，恰恰是标准有监督RL能够进一步放大的东西。

实验结果印证了这一点。像 Qwen 系列这种业界公认“适合做RL”的模型，在内在奖励训练下坚持的步数也更长。更有趣的是，这个 “模型坍塌步数”指标无需任何人工标注（ground truth），但其在预测模型经有监督RLVR后能获得多大性能提升方面，准确率甚至超过了传统的 pass@k 指标。

这实现了从“昂贵试错”到“轻量预判”的转变，把内在奖励的失败点，变成了评估模型RL潜力的“路标”。

展示不同基座模型在各项指标上表现的柱状图

图表展示了不同基座模型在无监督内在奖励训练下的模型坍塌步数（左）、以及对应模型经过有监督RLVR后的性能增益（中）。结果显示，在无监督训练中崩溃越晚的模型，后续有监督RL的效果也越好。

🚀 发现四：外部奖励才是可扩展的真正方向

如果内在奖励注定存在天花板，那么无监督RLVR的未来之路在何方？问题的根源在于奖励信号的来源。内在奖励用模型自己的置信度来训练模型自己，这形成了一个闭环的“回声室”，奖励信号永远无法超越模型已知的知识范畴。

但无监督RLVR的天地不止于此。研究者将外部奖励方法归纳为两类：

利用无标注数据：从海量无标注语料中挖掘潜在的奖励信号。数据越多，信号越丰富，不会因为模型自身变强而枯竭。
利用生成-验证的不对称性：让模型自己生成答案，然后使用外部工具（如编译器、数学证明检查器、物理模拟器）进行客观验证，并提供环境反馈。这些验证器的判断不依赖于模型的自信度，因此是客观且稳定的。

研究者初步测试了自验证方法，结果展现出一条与内在奖励截然不同的学习曲线：性能持续改进，没有出现崩溃。原因在于，奖励不再来源于“模型有多自信”，而是来源于“答案能否通过外部客观验证”。生成一个复杂解法可能很难，但验证其正确性往往相对简单。这种不对称性，将模型的进化过程锚定在了真实世界的客观规律上，而非其自身的“回声”之中。

内在奖励在问：“你相信自己吗？”，而外部奖励在问：“这是真的吗？”。通往可扩展的无监督强化学习，答案或许更倾向于后者。

展示生成与验证不对称性的对比示意图

写在最后：认清边界，方能超越边界

我们描绘了无监督强化学习的诸多边界，但这张“地图”的价值，从来不在于简单地宣告“此路不通”，而在于清晰地指出：在什么条件下，哪一条路是通的。

一个系统能否通过自我审视而变得更好，根本上取决于它最初的判断有多准确。内在奖励方法失败的原因，恰恰也是它可能成功的原因，都源于同一个机制：自我强化。区别仅在于，被不断强化的是真理，还是偏见。

当我们真正认清了内在奖励的机制与宿命，才能更清晰地看到外部奖励所展现的星辰大海。通往可扩展的无监督强化学习，需要的不是对模型自我进化能力的盲目信仰，而是一种明智的“工具思维”：知道在何时、何种场景下，应该让模型倾听自己的“回声”进行微调；又该在何时，必须将其推向真实世界的“铁律”进行锤炼与验证。

内在奖励与外部奖励并非对立，它们是技术工具箱中不同的工具。认清各自的边界，不是为了让我们止步不前，而是为了 在边界之内进行更自由、更高效的创造，同时勇于在边界之外，探寻那些全新的、更具潜力的可能性。关于模型训练与AI前沿的更多深度讨论，欢迎访问云栈社区与同行交流。

上一篇：国产手机品牌集体涨价背后：AI浪潮冲击存储芯片供应链，智能手机告别“白菜价”时代
下一篇：Karpathy GitHub项目：用AI量化342个职业的暴露度与启示

强化学习, 大语言模型, 无监督学习, 模型训练, 奖励机制