找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3315

积分

0

好友

467

主题
发表于 18 小时前 | 查看: 0| 回复: 0

最近,Meta AI 的两篇新论文揭示了大型语言模型自我改进的全新路径:它们不再仅仅依赖人类标注的数据,而是开始尝试自己当“老师”,通过自生成课程来教自己。一篇研究聚焦于微调阶段的 SOAR 框架,另一篇则关注预训练阶段的“自我净化”机制。这两项工作共同指向一个方向:模型或许能主动克服自身的学习瓶颈。

论文 核心问题 关键招数
SOAR 《Teaching Models to Teach Themselves》 预训练模型在“完全不会”的数学难题上(0/128 成功率)无法获得 RL 训练信号 用「老师-学生」非对称自博弈 + 元强化学习,让老师自学生成垫脚石题目以学生真实进步为奖励
Self-Improving Pretraining 传统“下一个 token”预训练无法纠正低质、不安全、幻觉数据,后训练也难彻底修复 把预训练改造成「前缀-后缀」序列生成任务;用已后训的强模型当「裁判+改稿人」,通过在线 RL 实时重写或筛选后缀

两篇Meta论文摘要:Teaching Models to Teach Themselves 与 Self-Improving Pretraining

SOAR:模型自己当“出题老师”

痛点:稀疏奖励 = 零信号

当模型在 MATH、HARP 等竞赛级数学难题上表现极差时(例如 Llama-3.2-3B 模型对某个问题128 次采样全错),传统的强化学习微调方法(如 RLVR)将无法获得任何正向奖励信号,训练进程会直接停滞。

图 1:直接训练 vs SOAR 自生成课程
SOAR框架示意图:通过自生成课程在困难问题上学习

解法:双层元 RL 把「学生进步」当奖励

SOAR 的核心是设计了一个非对称的自博弈框架:一个“老师”模型负责生成题目,一个“学生”模型负责解题,并通过元强化学习将学生的真实进步作为老师的奖励。

SOAR的元强化学习循环详细架构图

角色 任务 奖励来源
Teacher π^T_φ 生成 (question, answer) 对 学生在真实难题上的准确率增量
Student π^S_θ 解答老师生成的题 标准 RLVR(用 math-verify 判题)

外层循环用 RL 更新老师;内层循环用 RL 更新学生。关键在于,老师看不到原始难题,只能观察“学生解答真实难题时有没有进步”,从而迫使老师学会生成对学生真正有帮助的“垫脚石”题目。

关键发现

  1. “会出题”≠“会做题”:老师模型自己依然解不出那些原始难题,但它能成功产出可学习的中间题目。
  2. Grounded Reward >> Intrinsic Reward
    • 使用“可学习性”或“多数投票”等内在指标作为奖励的方法(Intrinsic-T)会迅速导致生成的题目多样性崩塌(Vendi Score 从 34 骤降至 10)。
    • 而使用“学生进步”作为接地奖励的 Grounded-T 方法,不仅能保持题目多样性,训练曲线也更稳定。
  3. 题目结构 > 答案正确:SOAR 生成的题目中,仅 32.8% 的答案完全正确,但 63% 的题目在“数学结构上是良构的”。这说明,提供有效学习梯度的关键在于题目的结构,而非完美的答案。

图 5:Grounded 奖励带来更稳定、高方差的学生提升曲线
SOAR在MATH和HARP数据集上的多组实验结果对比曲线图

数据结果

数据集 方法 pass@32 提升(vs Hard-Only)
MATH fail@128 SOAR-PQ +9.3% (绝对 18.9%)
HARP fail@128 SOAR-PQ +4.2% (绝对 12.3%)
OlympiadBench (OOD) PQ-MATH +6.0%

表 4-6 详细结果
SOAR-PQ在MATH数据集Fail@128上的测试准确率详细表格
SOAR-PQ在HARP数据集Fail@128上的测试准确率详细表格
SOAR方法在Olympiad数据集上的跨域测试准确率表格

论文链接:

https://arxiv.org/pdf/2601.18778
Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability

预训练阶段就自我净化

Self-Improving Pretraining论文标题与摘要

思路:把“下一个 token”换成“下一段序列”

传统预训练的目标是预测下一个 token,这难以纠正已习得的低质量或有害模式。新范式将其扩展为生成一小段连续的 token 序列(后缀),并引入一个已后训练的强模型作为“裁判”和“改稿人”进行实时质量干预。

  • 传统范式
    prefix → 预测 token_{t+1}
  • 新范式
    prefix → 生成 128-token 后缀(可重写)

    流程:模型根据前缀生成一个候选后缀,已后训的强模型(Judge/Rewriter)会实时判断其质量、安全性或事实性。如果质量不佳,强模型会对其进行重写;模型自身也会生成多个候选,最终选择质量最高的后缀作为训练目标。

图 1:Self-Improving Pretraining 流水线
Self-Improving Pretraining整体流程架构图

训练配方

组件 做法
Judge Llama-3.1-8B-Instruct 微调 或 GPT-OSS-120B 直接 prompt
Rewriter 同上,专门练“安全复制”或“去幻觉”
Policy 更新 Online DPO(16 rollouts)或 RF-NLL
数据 SlimPajama(高质量)/ RedPajama(含风险)

安全与质量评判提示词模板

结果速览

指标 持续预训练提升(vs 下一 token 基线)
Generation Quality Win-Rate 86.3 %
Factuality(平均) +36.2 %
Safety(平均) +18.5 %
标准基准(MMLU 等) 不降反升,最高 +3.4 pts

Table-1 详细结果
Self-Improving Pretraining在质量、事实性、安全性三个维度的主实验结果表格

图 8:训练初期依赖“重写”,后期越来越多地选中自己 rollout 的高质量后缀
模型在训练过程中选择自身生成rollout的比率变化曲线图

论文链接:

https://arxiv.org/pdf/2601.21343
Self-Improving Pretraining:using post-trained models to pretrain better models

两篇文章的共同启示

维度 SOAR Self-Improving Pretraining
信号来源 学生在真实难题上的进步 强模型对质量/安全/事实的判断
自举方式 老师自学生成课程数据 强模型重写或筛选预训练序列
关键机制 双层元强化学习 + 非对称自博弈 序列生成 RL + 在线 Judge/Rewriter
避免崩塌 Grounded Reward 替代 Intrinsic 用强模型监督,拒绝“自嗨”
能力解耦 出题能力 ≠ 解题能力 裁判能力 ≠ 生成能力

未来可期

  • SOAR 已在实验中观察到学生模型性能“晋级”的现象,未来能否在更大规模的模型或更复杂的领域(如代码生成、科学推理)中持续“爬坡”?
  • Self-Improving Pretraining 目前实验基于 1.4B 模型,将其扩展至 70B+ 级别后,是否仍能保持如此显著的质量胜率?
  • 将两者结合:让 SOAR 框架生成的“高质量自课程”作为 Self-Improving Pretraining 的高质量后缀数据源,或许能形成一个“自生成-自净化”的强化闭环,为突破人类标注数据的天花板开辟新路径。

这两篇论文所探索的方向,标志着模型训练正从被动接受数据向主动构建学习路径演进。对于从事人工智能与模型研发的社区而言,此类强化学习与自监督结合的工作极具启发性。技术的发展离不开交流与碰撞,欢迎大家在云栈社区继续探讨模型自我演进的更多可能性。




上一篇:Java 8+ ConcurrentHashMap 底层实现原理:高并发设计、核心源码与节点类型深度解析
下一篇:前端性能优化中的缓存策略:从浏览器缓存到CDN的边缘实践
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-9 19:50 , Processed in 0.322053 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表