找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2524

积分

0

好友

331

主题
发表于 昨天 04:19 | 查看: 5| 回复: 0

斯坦福博士论文《持续自我改进的人工智能》封面

摘要: 现代基于语言模型的人工智能系统展现出了卓越的性能,然而,其能力在三个关键维度上仍受到人类创造者的根本性限制。

首先,尽管模型权重可通过微调进行更新,但在预训练阶段之后,从规模较小的专业语料库中获取新知识的效率依然极低。
其次,此类系统的训练高度依赖于历史上有限的人类生成数据。
第三,现有的 AI 模型训练管线仍受限于人类研究人员所能发现并探索的算法范畴。

本论文为攻克上述固有局限迈出了初步尝试,通过三个章节的研究,旨在打破这些依赖关系,进而构建持续自我改进的人工智能

  • 针对知识获取中的数据效率瓶颈:我们提出了一种合成数据方法,将有限的语料库进行多样化扩展并增强为丰富的知识表示,使模型能够有效地利用稀缺的原始素材完成参数更新。
  • 针对人类数据依赖问题:研究表明,在给定固定规模的人类数据前提下,模型可通过自生成合成数据来自举其基础预训练能力,且无需从任何现成的指令微调语言模型中进行蒸馏。
  • 针对人类工程化训练范式的局限:我们证明,通过在测试时对算法空间进行大规模搜索,AI 能够探索比人类研究人员手动尝试更为广阔的学习算法配置空间。

1. 引言 (Introduction)

1.1 定义持续自我改进的 AI

简而言之:持续自我改进的人工智能是指一旦被创建,便能自主且持续地提升自身性能,其改进能力超越人类创造者的系统。我们设定了两个假设,将此定义限定在本论文所研究的 AI 系统范畴内:

  • (A1) 该 AI 系统基于一个或多个神经网络,因此其知识被编码在一组定义明确的参数权重中。
  • (A2) 存在一个资源密集型的预训练阶段用以创建系统,即:

    $$\text{ai\_system} = \text{learning\_algorithm}(\text{training\_signal}) \quad (1.1)$$

    其中,$\text{training\_signal}$ 指代人类知识(如互联网文本),$\text{learning\_algorithm}$ 涵盖架构(如 Transformer)和优化器(如梯度下降),而 $\text{ai\_system}$ 则是生成的模型。

这两个假设涵盖了当前的语言模型范式,但也并不排除非 Transformer 架构或非文本的训练信号。在上述假设基础上,我们定义持续自我改进的 AI 需满足以下三个特性:

  • (P1) 在预训练阶段之后,系统能够持续获取新知识并融入参数权重,且不会发生灾难性遗忘
  • (P2) 系统能够生成自身的训练信号,且从这些自生成信号中学习所获得的改进,超越了现有的人类生成信号所能提供的上限。
  • (P3) 系统能够自主决定使用何种学习算法来从其训练信号中学习。

这三个特性分别对应本论文的三个章节:

  • 第 2 章 (特性 P1):通过合成小型语料库的多样化表示进行持续预训练,改进模型所掌握的知识。
  • 第 3 章 (特性 P2):利用文档间的相关性来强化预训练本身,提升系统的基础预训练能力。
  • 第 4 章 (特性 P3):通过将测试时搜索从 Token 级别扩展到思想级别,改进模型的训练过程。

1.2 持续知识获取 (Continual Knowledge Acquisition)

我们首先探讨特性 (P1):预训练后的语言模型如何持续从小型专业语料库中学习?这是一个数据受限的问题。诸如私有数据库、专业科学领域等利基知识缺乏标准预训练所需的互联网多样性。

在第 2 章中,我们通过合成持续预训练解决了数据效率与灾难性遗忘两大挑战。从宏观上看,我们利用一种受知识图谱启发的增强算法 EntiGraph,将小型语料库转换为大规模、多样化的合成语料库,并在扩展数据上进行持续预训练,同时混入比例原始预训练数据以防止遗忘。实验表明,该方法能使模型有效习得原始文档知识。


1.3 自举预训练能力 (Bootstrapping Pretraining Capabilities)

随着 OpenAI o1 的发布,推理模型成为焦点。一个自然的问题是:诱导预训练模型的推理能力需要多少数据?在第 3 章中,我们证明仅需 1,000 个精心策划的推理链样本便足以构建极具竞争力的推理模型。这表明推理能力已潜藏于预训练权重中,微调只是将其诱导出来。

这引出了对特性 (P2) 的探讨:在无外部强大教师、无新环境信息的前提下,模型能否通过固定数据集生成合成数据来训练出更好的模型?我们提出了合成自举预训练。SBP 训练一个条件数据合成器,从现有文档中生成新的训练文档(例如从学术论文合成代码教程)。实验证明,SBP 在算力对齐的比较中提升了预训练困惑度,填补了与拥有无限唯一数据的“神谕”之间多达 60% 的差距。


1.4 迈向 AI 设计的 AI:通过测试时搜索实现

AI 研究本身或许是 AI 能够交付显著进展的领域。在第 4 章中,我们构建了一个自动化 AI 研究系统,并在思想级别应用测试时搜索:生成研究设想、自动执行实验,并将结果反馈以指导下一轮搜索。

另一项观察强化了这一方向:即使是简单的干预——如通过抑制“思考结束标记”来强制延长推理(我们称之为预算强制)——也能提高准确率。如果 Token 级别的暴力思考已有帮助,那么在思想级别系统性地扩展搜索(即生成研究想法、执行并学习结果)应当能带来进一步提升。这代表了另一种自我改进:并非改进训练数据或模型能力,而是改进训练算法本身

论文《持续自我改进的人工智能》各章节对应的技术路线与出版物

以上就是对这篇斯坦福博士论文核心思想的梳理。它为我们勾勒了一个不再完全依赖人类数据和智慧的 AI 进化新路径。从高效的知识获取,到自我生成数据进行自举预训练,再到探索改进训练算法本身,这些研究都为构建真正的持续自我改进的人工智能奠定了基础。如果你想了解更多关于Transformer架构前沿进展或学习算法的讨论,不妨来云栈社区的人工智能版块看看,那里有更多开发者在进行深度交流。




上一篇:6G技术如何赋能物联网?从连接、体验到智能三大维度的深度解析
下一篇:华为畅享90系列发布:1299元起,搭载麒麟芯片与鸿蒙6
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-25 01:22 , Processed in 0.551786 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表