云栈社区»论坛 › 站务中心「 Forum Service 」 › OpenAI Yann Dubois：RL走出“有标准答案”世界后，持续学习为何 ...

发回帖发新帖

4175 积分	0 好友	545 主题

发消息

OpenAI Yann Dubois：RL走出“有标准答案”世界后，持续学习为何三年未突破？

发表于 2026-5-31 21:40:07 | 查看: 114| 回复: 0

最近AI圈每隔几周就有人说又变天了。GPT‑5.5出了，Claude Opus 4.8出了，coding能力又跳了一级。但到底是真的加速了，还是我们终于跨过了某条线？

Yann Dubois在播客中谈AI进展

Yann Dubois负责OpenAI的后训练（post‑training）团队，他在Matt Turck的播客里分享了三个原因。第一，可靠性跨过阈值了，模型够可靠你才敢用。第二，模型好到能帮研究员写代码了，自己加速自己的迭代。这两条没什么好争的。有意思的是第三个。

他提了一句，O1、O3时代的强化学习（RL）只对“可验证奖励”有效。数学竞赛有标准答案，编程题能跑测试，对就是对，错就是错。但GPT‑5.5开始把同一套RL工具用到没有标准答案的真实任务上了。你让模型帮你重构一段代码，什么叫“好”？没有唯一正确答案。

“我们一开始开发RL的时候，对真实世界做了很多简化假设。现在我们在移除这些假设。”

先搞竞赛，再搞有用性，最后变成用户能感知到的东西。这条迁移路线串起来之后，你会发现他其实就说了一个事儿：AI有用没用，跟开关一样，要么开要么关。不是旋钮，你转一点就亮一点。

Yann说AI能力的进步其实一直是连续的，但用户感觉到的永远是阶跃函数。你需要达到某个可靠性水平，模型才能真正有用。他们大概在去年12月跨过了那个阈值。在此之前，模型不可靠，给你十个答案错一个，你得自己排查哪一个错了，还不如自己写。跨过去之后，你信任它做完大部分工作。

95%可靠和99%可靠的区别，不是4个百分点，是“不能用”和“能用”。

95%的自动化等于零，Cat Wu聊Anthropic产品周期的时候说过这句话。你要是自动化没做到100%，最后还是得人盯着。自动化要么是全自动，要么就还是手动，中间那个半吊子状态没有产品价值。Yann说的可靠性阈值是同一个逻辑，只不过从产品层下沉到了模型层。

水从99度升到101度，温度变化是连续的。但在100度那一刻，状态变了。

Yann这个人本身也值得聊一下。他不是那种读博士的时候就信仰RL的人。他在斯坦福参与Alpaca项目的时候，要干的事刚好反着来。他要证明不需要RL，只用SFT行为克隆就能复现ChatGPT。他当时觉得RL是“过度复杂的方法”。

现在他负责OpenAI的post‑training，RL成了他最趁手的家伙。

他以前想证明RL没用。跑出来的结果不站在他那边。他认了。在AI这个圈子里，太多人靠信仰活着。黄仁勋信仰算力，Yann LeCun信仰自监督，Sam Altman信仰规模。一个人愿意说“我之前想错了”，那他再说“我现在想对了”的时候，分量就不一样了。

他为什么从怀疑变成信仰？因为RL在可验证奖励上跑通了。O1、O3证明了这条路。让模型在数学竞赛和编程比赛里自己探索，生成一堆答案，标记哪个对哪个错，然后强化正确的路径。这件事奏效了，而且效率越来越高。

RL确实跑通了。但真正的转折在后面。RL开始离开那些有标准答案的领域。

数学竞赛和编程比赛有一个共同特征：题出得很干净。题目给到你手里，全部已知条件都在里面，答案对错一目了然。真实世界的任务不是这样的。边界模糊，信息缺失，对错分不清。帮客户写一封邮件、分析一份财报、诊断一个疾病，每一样都没有唯一正确答案。

“在真实世界里，你需要先去互联网上搜集和提取信息，搞清楚情况，然后才能开始推理。”

从有标准答案的世界进入没有标准答案的世界。这个迁移除了技术问题，还有一层：整个AI行业的人才、工具、评估体系，都是为前者建的。

评估是最明显的短板。Yann进OpenAI的第一个项目就是做evals。没人做这个，所以最缺人。

大多数人都想改进模型，他们觉得最好的方法是训练模型。实际上，把问题找出来、把改进量化出来，这两件事的分量一点不比训练轻。

为什么评估越来越难？不是因为模型不够好，恰好是因为模型太好了。以前你可以问“这段代码有没有bug”，有标准答案。现在你问“帮我建个网站”，十个设计师给你十个不同答案。任务从封闭变成了开放，从单维度变成了多维度，从“对不对”变成了“好不好”。

更麻烦的是那个自噬循环。每一个评估框架一旦做出来，就可以直接变成训练数据。模型在这条评估上快速饱和，然后评估作废。你得重新出一套题。这就像高考：如果今年的高考题明年变成了模拟题，所有人都刷过，那这套题就没有区分度了。

评估不是质检环节。它是方向盘。谁定义了“什么叫好”，谁就控制了模型往哪个方向变。

Kevin Weil之前说过，AI时代PM最稀缺的技能不是写PRD，是能精确描述“什么叫好”。Yann从训练侧说了同一件事。

他讲持续学习的那段，我反复听了好几遍。

Yann画了一条曲线。X轴是时间，Y轴是模型好不好用。新模型第一天，可能比大多数新员工更有用。但之后它的能力基本上是平的。它不会因为你每天早上给它发邮件而变得越来越懂你的工作。人类员工呢？起点低，但每天都在学，长期来看曲线下的面积更大。

“三年前ChatGPT刚出来的时候，我和朋友创业就在想做持续学习。我们当时想，OpenAI有那么多用户数据，六个月就能搞定。三年过去了，我在OpenAI，还是没搞定。”

“我真的不知道为什么会花这么久。老实说，我不太清楚。”

一个在最前沿做post‑training的人，公开承认他想不通一个核心问题为什么还没解决。他说的是知识的边界。一个人越敢说不知道，他说的知道就越值得听。

如果把模型比作一本西医教科书，出版那天知识是巅峰，之后就在贬值，下一版出来之前它是死的。人类的持续学习更像老中医看诊。每一个新病例都长在脑子里，十年下来，同一个方子在不同病人身上用了三千次，每次微调一点。这个经验是活的。

但这不是比喻。预训练给了模型全世界的快照，互联网上所有文本的压缩。但它没给模型更新快照的能力。模型知道一切，但学不会任何新东西。

这个问题三年了没解决。不是没人试，是试了的人都还没跑通。

Yann对创业者的建议完全没有受这个问题影响。他说如果你有一个具体的垂直场景，就去在那个场景里把可靠性从80%推到85%。工具就在那，能做的事情太多了。他说的“最后一公里”，包括权限、连接器、特定领域的数据和工作流。这些东西模型不会替你解决。

“如果我们把现在的模型冻结，所有人只专注于优化脚手架和产品层，每个领域都能有AGI的感觉。”

但问题是没有人会冻结模型。模型在变，更快、更强、更可靠。每次底层一升级，上层的脚手架就得拆了重搭。那些在“最后一公里”上花了太多力气的人，会被模型本身吃掉。那些只专注于一个垂直场景、把可靠性从80%推到85%的人，活下来。

Yann Dubois最打动我的，是他虽然作为一个领域专家，但在几个关键问题上还是说了“我不知道”。持续学习为什么还没搞定，不知道。下一次阶跃函数什么时候来，不知道。有人问他模型是不是真的会推理。他没接这个话茬。预训练把整个互联网都喂给模型了，推理能力早就含在里面了。

一个知道自己不知道什么的人，比一百个知道一切的人更有价值。在云栈社区的技术交流里，我们也推崇这种对知识边界的诚实。这和模型刚好反过来。

上一篇：华为逻辑折叠被误读？台积电谈能效、黄仁勋说封装，真3D与赝3D之争才是关键
下一篇：CC Switch v3.16.0 更新：本地协议转换，让 Codex 无缝接入国产模型

强化学习, 后训练, 持续学习, 模型评估, OpenAI

OpenAI Yann Dubois：RL走出“有标准答案”世界后，持续学习为何三年未突破？

相关帖子