云栈社区»论坛 › 技术文档「 Note & Doc 」 › 斯坦福研究提出持续自我改进AI：知识获取、自举预训练与测试时搜 ...

发回帖发新帖

3708 积分	0 好友	491 主题

发消息

斯坦福研究提出持续自我改进AI：知识获取、自举预训练与测试时搜索

发表于 2026-3-24 04:19:34 | 查看: 99| 回复: 0

斯坦福博士论文《持续自我改进的人工智能》封面

摘要： 现代基于语言模型的人工智能系统展现出了卓越的性能，然而，其能力在三个关键维度上仍受到人类创造者的根本性限制。

首先，尽管模型权重可通过微调进行更新，但在预训练阶段之后，从规模较小的专业语料库中获取新知识的效率依然极低。
其次，此类系统的训练高度依赖于历史上有限的人类生成数据。
第三，现有的 AI 模型训练管线仍受限于人类研究人员所能发现并探索的算法范畴。

本论文为攻克上述固有局限迈出了初步尝试，通过三个章节的研究，旨在打破这些依赖关系，进而构建持续自我改进的人工智能。

针对知识获取中的数据效率瓶颈：我们提出了一种合成数据方法，将有限的语料库进行多样化扩展并增强为丰富的知识表示，使模型能够有效地利用稀缺的原始素材完成参数更新。
针对人类数据依赖问题：研究表明，在给定固定规模的人类数据前提下，模型可通过自生成合成数据来自举其基础预训练能力，且无需从任何现成的指令微调语言模型中进行蒸馏。
针对人类工程化训练范式的局限：我们证明，通过在测试时对算法空间进行大规模搜索，AI 能够探索比人类研究人员手动尝试更为广阔的学习算法配置空间。

1. 引言 (Introduction)

1.1 定义持续自我改进的 AI

简而言之：持续自我改进的人工智能是指一旦被创建，便能自主且持续地提升自身性能，其改进能力超越人类创造者的系统。我们设定了两个假设，将此定义限定在本论文所研究的 AI 系统范畴内：

(A1) 该 AI 系统基于一个或多个神经网络，因此其知识被编码在一组定义明确的参数权重中。
(A2) 存在一个资源密集型的预训练阶段用以创建系统，即：

$$\text{ai\_system} = \text{learning\_algorithm}(\text{training\_signal}) \quad (1.1)$$

其中，$\text{training\_signal}$ 指代人类知识（如互联网文本），$\text{learning\_algorithm}$ 涵盖架构（如 Transformer）和优化器（如梯度下降），而 $\text{ai\_system}$ 则是生成的模型。

这两个假设涵盖了当前的语言模型范式，但也并不排除非 Transformer 架构或非文本的训练信号。在上述假设基础上，我们定义持续自我改进的 AI 需满足以下三个特性：

(P1) 在预训练阶段之后，系统能够持续获取新知识并融入参数权重，且不会发生灾难性遗忘。
(P2) 系统能够生成自身的训练信号，且从这些自生成信号中学习所获得的改进，超越了现有的人类生成信号所能提供的上限。
(P3) 系统能够自主决定使用何种学习算法来从其训练信号中学习。

这三个特性分别对应本论文的三个章节：

第 2 章 (特性 P1)：通过合成小型语料库的多样化表示进行持续预训练，改进模型所掌握的知识。
第 3 章 (特性 P2)：利用文档间的相关性来强化预训练本身，提升系统的基础预训练能力。
第 4 章 (特性 P3)：通过将测试时搜索从 Token 级别扩展到思想级别，改进模型的训练过程。

1.2 持续知识获取 (Continual Knowledge Acquisition)

我们首先探讨特性 (P1)：预训练后的语言模型如何持续从小型专业语料库中学习？这是一个数据受限的问题。诸如私有数据库、专业科学领域等利基知识缺乏标准预训练所需的互联网多样性。

在第 2 章中，我们通过合成持续预训练解决了数据效率与灾难性遗忘两大挑战。从宏观上看，我们利用一种受知识图谱启发的增强算法 EntiGraph，将小型语料库转换为大规模、多样化的合成语料库，并在扩展数据上进行持续预训练，同时混入比例原始预训练数据以防止遗忘。实验表明，该方法能使模型有效习得原始文档知识。

1.3 自举预训练能力 (Bootstrapping Pretraining Capabilities)

随着 OpenAI o1 的发布，推理模型成为焦点。一个自然的问题是：诱导预训练模型的推理能力需要多少数据？在第 3 章中，我们证明仅需 1,000 个精心策划的推理链样本便足以构建极具竞争力的推理模型。这表明推理能力已潜藏于预训练权重中，微调只是将其诱导出来。

这引出了对特性 (P2) 的探讨：在无外部强大教师、无新环境信息的前提下，模型能否通过固定数据集生成合成数据来训练出更好的模型？我们提出了合成自举预训练。SBP 训练一个条件数据合成器，从现有文档中生成新的训练文档（例如从学术论文合成代码教程）。实验证明，SBP 在算力对齐的比较中提升了预训练困惑度，填补了与拥有无限唯一数据的“神谕”之间多达 60% 的差距。

1.4 迈向 AI 设计的 AI：通过测试时搜索实现

AI 研究本身或许是 AI 能够交付显著进展的领域。在第 4 章中，我们构建了一个自动化 AI 研究系统，并在思想级别应用测试时搜索：生成研究设想、自动执行实验，并将结果反馈以指导下一轮搜索。

另一项观察强化了这一方向：即使是简单的干预——如通过抑制“思考结束标记”来强制延长推理（我们称之为预算强制）——也能提高准确率。如果 Token 级别的暴力思考已有帮助，那么在思想级别系统性地扩展搜索（即生成研究想法、执行并学习结果）应当能带来进一步提升。这代表了另一种自我改进：并非改进训练数据或模型能力，而是改进训练算法本身。

论文《持续自我改进的人工智能》各章节对应的技术路线与出版物

以上就是对这篇斯坦福博士论文核心思想的梳理。它为我们勾勒了一个不再完全依赖人类数据和智慧的 AI 进化新路径。从高效的知识获取，到自我生成数据进行自举预训练，再到探索改进训练算法本身，这些研究都为构建真正的持续自我改进的人工智能奠定了基础。如果你想了解更多关于Transformer架构前沿进展或学习算法的讨论，不妨来云栈社区的人工智能版块看看，那里有更多开发者在进行深度交流。

上一篇：6G技术如何赋能物联网？从连接、体验到智能三大维度的深度解析
下一篇：华为畅享90系列发布：1299元起，搭载麒麟芯片与鸿蒙6

持续学习, 合成数据, 自举预训练, 人工智能, 斯坦福