云栈社区»论坛 › 站务中心「 Forum Service 」 › OpenAI后训练负责人解读：强化学习如何整合AI工具链与GPT-5.5推 ...

发回帖发新帖

4342 积分	0 好友	570 主题

发消息

OpenAI后训练负责人解读：强化学习如何整合AI工具链与GPT-5.5推理突破

发表于 2026-5-30 04:11:50 | 查看: 95| 回复: 0

近日，OpenAI 后训练前沿团队的联合负责人 Yann Dubois 在一次技术对话中，深度解析了 GPT-5.5 的研发内幕、强化学习的范式转移，以及推理模型演进中的核心挑战。

Yann Dubois 提到，虽然技术的底层进步是连续的，但用户体感上却常常是跳跃式的。这背后主要有三个驱动因素：首先，模型的可靠性迈过了一个临界点，在 OpenAI 内部，大部分日常工作已经可以放心地交给模型处理；其次，强大的模型反过来加速了自身的研发流程，形成了自我强化的循环；最后，在过去一年里，强化学习的工具和方法成功地从可验证的竞赛场景，迁移到了真实用户效用的优化上，这是从炫技走向实用的关键一步。

谈及 GPT-5.5，Yann Dubois 最引以为傲的有两点：一是模型效率的实质性飞升，多数任务的完成速度快了两倍；二是全公司的高度协同。他解释称，效率提升源于两条并行路径——研究团队致力于将推理的 Scaling curve 向左移动，即用更少的 Token 达到相同的准确率；而推理工程团队则专注于将 Token 数量转化为实际延迟的压缩。GPT-5.5 正是这两条路径完美融合的体现。

他的团队承担着三项核心职责：决定哪些功能最终被整合进训练任务、执行大规模训练并处理基础设施整合，以及推进指令遵循、函数调用等横向通用能力的改进。

关于推理能力的演进，Yann Dubois 指出，o1 系列的历史性突破在于证明了“思考时间越长，答案质量越高”，但当时的基准测试仍局限于数学和编程竞赛。如今，核心转变在于，那些原本只在可验证场景下有效的强化学习算法，已被成功引入复杂的现实世界任务。评估基准也从竞赛题演进为 GDPval、SWE-bench Pro 这类更贴近真实开发的测试集。

他以专家与新手的类比来解释推理效率：效率的本质是模型能以更高概率判断出哪条推理路径正确，而不是穷举所有可能。模型在“走弯路”时及时止损、回溯并另寻他路的能力，同样可以通过强化学习来训练。训练不足的模型，往往要在错得离谱时才能反应过来。

对于业界热议的预训练瓶颈，Yann Dubois 坦言自己也曾持悲观态度，但 Anthropic 的进展改变了他的判断。通过成本分析可见，Claude 4 (Opus) 是一个更大参数规模的模型，仅凭扩大规模就带来了显著的性能飞跃。这说明业界并未真正撞上数据墙，各大公司都已找到突破互联网高质量数据限制的方法。他还指出，更大的模型在推理时所需 Token 更少，且在 GPU 上的并行计算优化空间更大，因此大模型实际上大幅提升了整体效率。

在数据突破方向上，Yann Dubois 认为合成数据表现良好，多模态数据也具潜力。但他也指出，Anthropic 的模型在多模态上并非顶尖却依然极度聪明，说明多模态数据或许并非不可或缺。他更看好具身 AI 的方向，让 AI 在物理世界中交互，能弥补当前模型在常识方面的短板，但行业距离这一目标还很遥远。

关于强化学习为何长期难以落地，Yann Dubois 回忆道，在 ChatGPT 发布时，他看到 OpenAI 使用强化学习，第一反应是“不用强化学习也能达到同样效果”，这也正是他参与开发 Alpaca 的初衷，当时他与 Yann LeCun “强化学习只是蛋糕上的樱桃”的判断基本一致。他强调，强化学习真正奏效的前提，是模型规模跨越某个临界点，对世界具备完整的先验认知。此前的挑战主要在于两方面：一是大规模采样的成本极高；二是在 AI Agent 场景下，只有漫长的生成过程结束后才知道结果对错，导致每个 Token 获得的反馈信息量极低，归因极其困难。

在垂直领域的泛化能力上，Yann Dubois 表示，泛化可分为算法泛化和模型能力泛化。例如，针对 C++ 优化的模型对 Python 同样有效，因为预训练阶段已见过全部代码。最难泛化的，是那些存在内在矛盾的能力，比如显式指令遵循与隐式指令遵循之间的冲突。

对于幻觉问题，Yann Dubois 指出，在数学推理场景下，幻觉基本可以消除。他引用 John Schulman 的演讲指出，监督微调（SFT）在结构上会催生幻觉，因为当模型对某事一无所知时，强迫它输出正确答案，实质上是在优化模型去引用不存在的东西。而在设计良好的强化学习流程中，模型极不可能采样出自身不知道却恰好正确的内容，因此天然地抑制了幻觉。

随着模型能力越来越强，评估也变得日益困难。Yann Dubois 称，核心原因是任务愈发具有开放式特征，从“这行代码里有没有 bug”变成了“帮我建个网站”，最优解难以界定。他指出，确定缺陷并量化进步，与训练模型本身同样关键，但评估领域至今未获得与数据工作同等的重视。

谈及 AI 应用层的护城河，Yann Dubois 建议创业者不要将长期赌注押在 RAG 基础设施或 AI Agent 的 Harness 这类“脚手架”上。这些工具本质上是在模型能力不足时提供的临时补贴，一旦模型足够强大，这些功能通常会被直接整合进模型内部。他以编程领域的 Devin 为例，复杂的外围 Harness 当下能带来极佳性能，但随着模型进化，冗余架构大概率不再需要。他认为，当前阶段真正的优势壁垒在于拥有一批深度锁定在平台上的用户。

不过，对于深耕特定垂直领域的外部公司，Yann Dubois 认为其生存空间依然广阔。真正的瓶颈往往不是模型的基础能力，而是“最后一公里”——如何确保模型顺畅获取权限、连接各种接口和业务流。OpenAI 团队的精力高度聚焦于通用能力，必须有其他公司来填补各大垂直赛道中“最后一公里”的巨大商业空间。

对于持续学习这一大难题，Yann Dubois 感到无比兴奋又惊讶。他以一条关键曲线来描述结构性缺口：以时间为 X 轴、模型提供给用户的效用为 Y 轴，当前大多数模型在引入的第 0 天起点极高，但此后曲线近乎水平，因为它们没有真正学习公司积累的知识；而人类员工的学习曲线则持续上升。真正关键的是曲线下方的积分面积，正因如此，在很多场景下人类依然发挥更大作用。他坦言，ChatGPT 问世时，他曾与朋友筹备做持续学习和通用记忆的初创公司，当时大家都认为 OpenAI 很快就能解决，但时至今日仍未走到那一步。

文章观点来源：数字开物

本文涉及的深度技术探讨与资源，在云栈社区有更多实践案例与讨论。

上一篇：量化后精度下降不要慌：分层评估与ONNX/OMC实战策略
下一篇：首批9款国产AI训练推理芯片获国家级安全可靠I级认证

GPT-5．5, 强化学习, 后训练, AI推理, OpenAI

OpenAI后训练负责人解读：强化学习如何整合AI工具链与GPT-5.5推理突破

相关帖子