云栈社区»论坛 › 站务中心「 Forum Service 」 › 基于元RL的模型自我教学：Meta SOAR框架如何让LLM突破学习瓶颈 ...

发回帖发新帖

3315 积分	0 好友	467 主题

发消息

基于元RL的模型自我教学：Meta SOAR框架如何让LLM突破学习瓶颈

发表于 18 小时前 | 查看: 0| 回复: 0

最近，Meta AI 的两篇新论文揭示了大型语言模型自我改进的全新路径：它们不再仅仅依赖人类标注的数据，而是开始尝试自己当“老师”，通过自生成课程来教自己。一篇研究聚焦于微调阶段的 SOAR 框架，另一篇则关注预训练阶段的“自我净化”机制。这两项工作共同指向一个方向：模型或许能主动克服自身的学习瓶颈。

论文	核心问题	关键招数
SOAR 《Teaching Models to Teach Themselves》	预训练模型在“完全不会”的数学难题上（0/128 成功率）无法获得 RL 训练信号	用「老师-学生」非对称自博弈 + 元强化学习，让老师自学生成垫脚石题目并以学生真实进步为奖励
Self-Improving Pretraining	传统“下一个 token”预训练无法纠正低质、不安全、幻觉数据，后训练也难彻底修复	把预训练改造成「前缀-后缀」序列生成任务；用已后训的强模型当「裁判+改稿人」，通过在线 RL 实时重写或筛选后缀

两篇Meta论文摘要：Teaching Models to Teach Themselves 与 Self-Improving Pretraining

SOAR：模型自己当“出题老师”

痛点：稀疏奖励 = 零信号

当模型在 MATH、HARP 等竞赛级数学难题上表现极差时（例如 Llama-3.2-3B 模型对某个问题128 次采样全错），传统的强化学习微调方法（如 RLVR）将无法获得任何正向奖励信号，训练进程会直接停滞。

图 1：直接训练 vs SOAR 自生成课程
SOAR框架示意图：通过自生成课程在困难问题上学习

解法：双层元 RL 把「学生进步」当奖励

SOAR 的核心是设计了一个非对称的自博弈框架：一个“老师”模型负责生成题目，一个“学生”模型负责解题，并通过元强化学习将学生的真实进步作为老师的奖励。

SOAR的元强化学习循环详细架构图

角色	任务	奖励来源
Teacher π^T_φ	生成 (question, answer) 对	学生在真实难题上的准确率增量
Student π^S_θ	解答老师生成的题	标准 RLVR（用 math-verify 判题）

外层循环用 RL 更新老师；内层循环用 RL 更新学生。关键在于，老师看不到原始难题，只能观察“学生解答真实难题时有没有进步”，从而迫使老师学会生成对学生真正有帮助的“垫脚石”题目。

关键发现

“会出题”≠“会做题”：老师模型自己依然解不出那些原始难题，但它能成功产出可学习的中间题目。
Grounded Reward >> Intrinsic Reward：
- 使用“可学习性”或“多数投票”等内在指标作为奖励的方法（Intrinsic-T）会迅速导致生成的题目多样性崩塌（Vendi Score 从 34 骤降至 10）。
- 而使用“学生进步”作为接地奖励的 Grounded-T 方法，不仅能保持题目多样性，训练曲线也更稳定。
题目结构 > 答案正确：SOAR 生成的题目中，仅 32.8% 的答案完全正确，但 63% 的题目在“数学结构上是良构的”。这说明，提供有效学习梯度的关键在于题目的结构，而非完美的答案。

图 5：Grounded 奖励带来更稳定、高方差的学生提升曲线
SOAR在MATH和HARP数据集上的多组实验结果对比曲线图

数据结果

数据集	方法	pass@32 提升（vs Hard-Only）
MATH fail@128	SOAR-PQ	+9.3% (绝对 18.9%)
HARP fail@128	SOAR-PQ	+4.2% (绝对 12.3%)
OlympiadBench (OOD)	PQ-MATH	+6.0%

表 4-6 详细结果
SOAR-PQ在MATH数据集Fail@128上的测试准确率详细表格
SOAR-PQ在HARP数据集Fail@128上的测试准确率详细表格
SOAR方法在Olympiad数据集上的跨域测试准确率表格

论文链接：

https://arxiv.org/pdf/2601.18778
Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability

预训练阶段就自我净化

Self-Improving Pretraining论文标题与摘要

思路：把“下一个 token”换成“下一段序列”

传统预训练的目标是预测下一个 token，这难以纠正已习得的低质量或有害模式。新范式将其扩展为生成一小段连续的 token 序列（后缀），并引入一个已后训练的强模型作为“裁判”和“改稿人”进行实时质量干预。

传统范式：
```
prefix → 预测 token_{t+1}
```
新范式：
```
prefix → 生成 128-token 后缀（可重写）
```
流程：模型根据前缀生成一个候选后缀，已后训的强模型（Judge/Rewriter）会实时判断其质量、安全性或事实性。如果质量不佳，强模型会对其进行重写；模型自身也会生成多个候选，最终选择质量最高的后缀作为训练目标。

图 1：Self-Improving Pretraining 流水线
Self-Improving Pretraining整体流程架构图

训练配方

组件	做法
Judge	Llama-3.1-8B-Instruct 微调或 GPT-OSS-120B 直接 prompt
Rewriter	同上，专门练“安全复制”或“去幻觉”
Policy 更新	Online DPO（16 rollouts）或 RF-NLL
数据	SlimPajama（高质量）/ RedPajama（含风险）

安全与质量评判提示词模板

结果速览

指标	持续预训练提升（vs 下一 token 基线）
Generation Quality Win-Rate	86.3 %
Factuality（平均）	+36.2 %
Safety（平均）	+18.5 %
标准基准（MMLU 等）	不降反升，最高 +3.4 pts

Table-1 详细结果
Self-Improving Pretraining在质量、事实性、安全性三个维度的主实验结果表格

图 8：训练初期依赖“重写”，后期越来越多地选中自己 rollout 的高质量后缀
模型在训练过程中选择自身生成rollout的比率变化曲线图