近日,OpenAI 后训练前沿团队的联合负责人 Yann Dubois 在一次技术对话中,深度解析了 GPT-5.5 的研发内幕、强化学习的范式转移,以及推理模型演进中的核心挑战。
Yann Dubois 提到,虽然技术的底层进步是连续的,但用户体感上却常常是跳跃式的。这背后主要有三个驱动因素:首先,模型的可靠性迈过了一个临界点,在 OpenAI 内部,大部分日常工作已经可以放心地交给模型处理;其次,强大的模型反过来加速了自身的研发流程,形成了自我强化的循环;最后,在过去一年里,强化学习 的工具和方法成功地从可验证的竞赛场景,迁移到了真实用户效用的优化上,这是从炫技走向实用的关键一步。
谈及 GPT-5.5,Yann Dubois 最引以为傲的有两点:一是模型效率的实质性飞升,多数任务的完成速度快了两倍;二是全公司的高度协同。他解释称,效率提升源于两条并行路径——研究团队致力于将推理的 Scaling curve 向左移动,即用更少的 Token 达到相同的准确率;而推理工程团队则专注于将 Token 数量转化为实际延迟的压缩。GPT-5.5 正是这两条路径完美融合的体现。
他的团队承担着三项核心职责:决定哪些功能最终被整合进训练任务、执行大规模训练并处理基础设施整合,以及推进指令遵循、函数调用等横向通用能力的改进。
关于推理能力的演进,Yann Dubois 指出,o1 系列的历史性突破在于证明了“思考时间越长,答案质量越高”,但当时的基准测试仍局限于数学和编程竞赛。如今,核心转变在于,那些原本只在可验证场景下有效的强化学习算法,已被成功引入复杂的现实世界任务。评估基准也从竞赛题演进为 GDPval、SWE-bench Pro 这类更贴近真实开发的测试集。
他以专家与新手的类比来解释推理效率:效率的本质是模型能以更高概率判断出哪条推理路径正确,而不是穷举所有可能。模型在“走弯路”时及时止损、回溯并另寻他路的能力,同样可以通过 强化学习 来训练。训练不足的模型,往往要在错得离谱时才能反应过来。
对于业界热议的预训练瓶颈,Yann Dubois 坦言自己也曾持悲观态度,但 Anthropic 的进展改变了他的判断。通过成本分析可见,Claude 4 (Opus) 是一个更大参数规模的模型,仅凭扩大规模就带来了显著的性能飞跃。这说明业界并未真正撞上数据墙,各大公司都已找到突破互联网高质量数据限制的方法。他还指出,更大的模型在推理时所需 Token 更少,且在 GPU 上的并行计算优化空间更大,因此大模型实际上大幅提升了整体效率。
在数据突破方向上,Yann Dubois 认为合成数据表现良好,多模态数据也具潜力。但他也指出,Anthropic 的模型在多模态上并非顶尖却依然极度聪明,说明多模态数据或许并非不可或缺。他更看好具身 AI 的方向,让 AI 在物理世界中交互,能弥补当前模型在常识方面的短板,但行业距离这一目标还很遥远。
关于强化学习为何长期难以落地,Yann Dubois 回忆道,在 ChatGPT 发布时,他看到 OpenAI 使用强化学习,第一反应是“不用强化学习也能达到同样效果”,这也正是他参与开发 Alpaca 的初衷,当时他与 Yann LeCun “强化学习只是蛋糕上的樱桃”的判断基本一致。他强调,强化学习真正奏效的前提,是模型规模跨越某个临界点,对世界具备完整的先验认知。此前的挑战主要在于两方面:一是大规模采样的成本极高;二是在 AI Agent 场景下,只有漫长的生成过程结束后才知道结果对错,导致每个 Token 获得的反馈信息量极低,归因极其困难。
在垂直领域的泛化能力上,Yann Dubois 表示,泛化可分为算法泛化和模型能力泛化。例如,针对 C++ 优化的模型对 Python 同样有效,因为预训练阶段已见过全部代码。最难泛化的,是那些存在内在矛盾的能力,比如显式指令遵循与隐式指令遵循之间的冲突。
对于幻觉问题,Yann Dubois 指出,在数学推理场景下,幻觉基本可以消除。他引用 John Schulman 的演讲指出,监督微调(SFT)在结构上会催生幻觉,因为当模型对某事一无所知时,强迫它输出正确答案,实质上是在优化模型去引用不存在的东西。而在设计良好的 强化学习 流程中,模型极不可能采样出自身不知道却恰好正确的内容,因此天然地抑制了幻觉。
随着模型能力越来越强,评估也变得日益困难。Yann Dubois 称,核心原因是任务愈发具有开放式特征,从“这行代码里有没有 bug”变成了“帮我建个网站”,最优解难以界定。他指出,确定缺陷并量化进步,与训练模型本身同样关键,但评估领域至今未获得与数据工作同等的重视。
谈及 AI 应用层的护城河,Yann Dubois 建议创业者不要将长期赌注押在 RAG 基础设施或 AI Agent 的 Harness 这类“脚手架”上。这些工具本质上是在模型能力不足时提供的临时补贴,一旦模型足够强大,这些功能通常会被直接整合进模型内部。他以编程领域的 Devin 为例,复杂的外围 Harness 当下能带来极佳性能,但随着模型进化,冗余架构大概率不再需要。他认为,当前阶段真正的优势壁垒在于拥有一批深度锁定在平台上的用户。
不过,对于深耕特定垂直领域的外部公司,Yann Dubois 认为其生存空间依然广阔。真正的瓶颈往往不是模型的基础能力,而是“最后一公里”——如何确保模型顺畅获取权限、连接各种接口和业务流。OpenAI 团队的精力高度聚焦于通用能力,必须有其他公司来填补各大垂直赛道中“最后一公里”的巨大商业空间。
对于持续学习这一大难题,Yann Dubois 感到无比兴奋又惊讶。他以一条关键曲线来描述结构性缺口:以时间为 X 轴、模型提供给用户的效用为 Y 轴,当前大多数模型在引入的第 0 天起点极高,但此后曲线近乎水平,因为它们没有真正学习公司积累的知识;而人类员工的学习曲线则持续上升。真正关键的是曲线下方的积分面积,正因如此,在很多场景下人类依然发挥更大作用。他坦言,ChatGPT 问世时,他曾与朋友筹备做持续学习和通用记忆的初创公司,当时大家都认为 OpenAI 很快就能解决,但时至今日仍未走到那一步。
文章观点来源:数字开物
本文涉及的深度技术探讨与资源,在 云栈社区 有更多实践案例与讨论。