最近AI圈每隔几周就有人说又变天了。GPT‑5.5出了,Claude Opus 4.8出了,coding能力又跳了一级。但到底是真的加速了,还是我们终于跨过了某条线?

Yann Dubois负责OpenAI的后训练(post‑training)团队,他在Matt Turck的播客里分享了三个原因。第一,可靠性跨过阈值了,模型够可靠你才敢用。第二,模型好到能帮研究员写代码了,自己加速自己的迭代。这两条没什么好争的。有意思的是第三个。
他提了一句,O1、O3时代的强化学习(RL)只对“可验证奖励”有效。数学竞赛有标准答案,编程题能跑测试,对就是对,错就是错。但GPT‑5.5开始把同一套RL工具用到没有标准答案的真实任务上了。你让模型帮你重构一段代码,什么叫“好”?没有唯一正确答案。
“我们一开始开发RL的时候,对真实世界做了很多简化假设。现在我们在移除这些假设。”
先搞竞赛,再搞有用性,最后变成用户能感知到的东西。这条迁移路线串起来之后,你会发现他其实就说了一个事儿:AI有用没用,跟开关一样,要么开要么关。不是旋钮,你转一点就亮一点。
Yann说AI能力的进步其实一直是连续的,但用户感觉到的永远是阶跃函数。你需要达到某个可靠性水平,模型才能真正有用。他们大概在去年12月跨过了那个阈值。在此之前,模型不可靠,给你十个答案错一个,你得自己排查哪一个错了,还不如自己写。跨过去之后,你信任它做完大部分工作。
95%可靠和99%可靠的区别,不是4个百分点,是“不能用”和“能用”。
95%的自动化等于零,Cat Wu聊Anthropic产品周期的时候说过这句话。你要是自动化没做到100%,最后还是得人盯着。自动化要么是全自动,要么就还是手动,中间那个半吊子状态没有产品价值。Yann说的可靠性阈值是同一个逻辑,只不过从产品层下沉到了模型层。
水从99度升到101度,温度变化是连续的。但在100度那一刻,状态变了。
Yann这个人本身也值得聊一下。他不是那种读博士的时候就信仰RL的人。他在斯坦福参与Alpaca项目的时候,要干的事刚好反着来。他要证明不需要RL,只用SFT行为克隆就能复现ChatGPT。他当时觉得RL是“过度复杂的方法”。
现在他负责OpenAI的post‑training,RL成了他最趁手的家伙。
他以前想证明RL没用。跑出来的结果不站在他那边。他认了。在AI这个圈子里,太多人靠信仰活着。黄仁勋信仰算力,Yann LeCun信仰自监督,Sam Altman信仰规模。一个人愿意说“我之前想错了”,那他再说“我现在想对了”的时候,分量就不一样了。
他为什么从怀疑变成信仰?因为RL在可验证奖励上跑通了。O1、O3证明了这条路。让模型在数学竞赛和编程比赛里自己探索,生成一堆答案,标记哪个对哪个错,然后强化正确的路径。这件事奏效了,而且效率越来越高。
RL确实跑通了。但真正的转折在后面。RL开始离开那些有标准答案的领域。
数学竞赛和编程比赛有一个共同特征:题出得很干净。题目给到你手里,全部已知条件都在里面,答案对错一目了然。真实世界的任务不是这样的。边界模糊,信息缺失,对错分不清。帮客户写一封邮件、分析一份财报、诊断一个疾病,每一样都没有唯一正确答案。
“在真实世界里,你需要先去互联网上搜集和提取信息,搞清楚情况,然后才能开始推理。”
从有标准答案的世界进入没有标准答案的世界。这个迁移除了技术问题,还有一层:整个AI行业的人才、工具、评估体系,都是为前者建的。
评估是最明显的短板。Yann进OpenAI的第一个项目就是做evals。没人做这个,所以最缺人。
大多数人都想改进模型,他们觉得最好的方法是训练模型。实际上,把问题找出来、把改进量化出来,这两件事的分量一点不比训练轻。
为什么评估越来越难?不是因为模型不够好,恰好是因为模型太好了。以前你可以问“这段代码有没有bug”,有标准答案。现在你问“帮我建个网站”,十个设计师给你十个不同答案。任务从封闭变成了开放,从单维度变成了多维度,从“对不对”变成了“好不好”。
更麻烦的是那个自噬循环。每一个评估框架一旦做出来,就可以直接变成训练数据。模型在这条评估上快速饱和,然后评估作废。你得重新出一套题。这就像高考:如果今年的高考题明年变成了模拟题,所有人都刷过,那这套题就没有区分度了。
评估不是质检环节。它是方向盘。谁定义了“什么叫好”,谁就控制了模型往哪个方向变。
Kevin Weil之前说过,AI时代PM最稀缺的技能不是写PRD,是能精确描述“什么叫好”。Yann从训练侧说了同一件事。
他讲持续学习的那段,我反复听了好几遍。
Yann画了一条曲线。X轴是时间,Y轴是模型好不好用。新模型第一天,可能比大多数新员工更有用。但之后它的能力基本上是平的。它不会因为你每天早上给它发邮件而变得越来越懂你的工作。人类员工呢?起点低,但每天都在学,长期来看曲线下的面积更大。
“三年前ChatGPT刚出来的时候,我和朋友创业就在想做持续学习。我们当时想,OpenAI有那么多用户数据,六个月就能搞定。三年过去了,我在OpenAI,还是没搞定。”
“我真的不知道为什么会花这么久。老实说,我不太清楚。”
一个在最前沿做post‑training的人,公开承认他想不通一个核心问题为什么还没解决。他说的是知识的边界。一个人越敢说不知道,他说的知道就越值得听。
如果把模型比作一本西医教科书,出版那天知识是巅峰,之后就在贬值,下一版出来之前它是死的。人类的持续学习更像老中医看诊。每一个新病例都长在脑子里,十年下来,同一个方子在不同病人身上用了三千次,每次微调一点。这个经验是活的。
但这不是比喻。预训练给了模型全世界的快照,互联网上所有文本的压缩。但它没给模型更新快照的能力。模型知道一切,但学不会任何新东西。
这个问题三年了没解决。不是没人试,是试了的人都还没跑通。
Yann对创业者的建议完全没有受这个问题影响。他说如果你有一个具体的垂直场景,就去在那个场景里把可靠性从80%推到85%。工具就在那,能做的事情太多了。他说的“最后一公里”,包括权限、连接器、特定领域的数据和工作流。这些东西模型不会替你解决。
“如果我们把现在的模型冻结,所有人只专注于优化脚手架和产品层,每个领域都能有AGI的感觉。”
但问题是没有人会冻结模型。模型在变,更快、更强、更可靠。每次底层一升级,上层的脚手架就得拆了重搭。那些在“最后一公里”上花了太多力气的人,会被模型本身吃掉。那些只专注于一个垂直场景、把可靠性从80%推到85%的人,活下来。
Yann Dubois最打动我的,是他虽然作为一个领域专家,但在几个关键问题上还是说了“我不知道”。持续学习为什么还没搞定,不知道。下一次阶跃函数什么时候来,不知道。有人问他模型是不是真的会推理。他没接这个话茬。预训练把整个互联网都喂给模型了,推理能力早就含在里面了。
一个知道自己不知道什么的人,比一百个知道一切的人更有价值。在云栈社区的技术交流里,我们也推崇这种对知识边界的诚实。这和模型刚好反过来。