找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2577

积分

0

好友

341

主题
发表于 1 小时前 | 查看: 1| 回复: 0

OpenAI的o1模型点燃了推理浪潮后,AI的下一步该往哪里走?前阿里通义千问负责人林俊旸给出了他的判断。

推理浪潮留下了什么真正的遗产?

过去两年,o1和DeepSeek-R1让整个行业看到:「思考」本身可以成为模型的一等能力。

但第一波推理模型真正教会我们的,其实不是「让模型想得更久」,而是一套全新的系统工程方法论:

要在语言模型上跑通大规模强化学习,反馈信号必须是确定、稳定、可扩展的。数学、代码这些能验证对错的领域,天然比人类偏好标注更适合RL。

当模型开始在更长的推理轨迹上训练,RL不再是SFT上面的薄薄一层,而是变成了完整的系统问题——你需要大规模rollout、高吞吐验证、稳定的策略更新。

第一个真正的拐点已经发生:我们从「扩展预训练」,正式进入了「扩展推理后训练」的时代。

为什么「合并思考与指令」这么难?

2025年初,行业里很多团队都想做一件事:把思考模式和指令模式合并到一个模型里,让模型自己判断该想多久。

千问团队的Qwen3是业内最清晰的公开尝试,但林俊旸坦诚——这件事没那么简单。

真正的难点不在模型侧,而在数据:

  • 好的指令模型追求干脆利落、低延迟,适合大批量的企业任务(改写、标注、结构化提取)
  • 好的思考模型追求多花token探索路径,靠内部计算提升最终准确率

两种行为目标天然互斥,数据没精心策展的话,结果就是两头不讨好:思考变啰嗦,指令变拖沓。

所以现在行业出现了两条路线:一条是Anthropic走的集成路线(Claude 3.7 Sonnet允许用户自己控制思考预算),另一条是千问后来选择的分开路线(独立发布Instruct和Thinking版本)。

林俊旸说,关键不在于选哪条路,而在于合并是不是自然长出来的——真正好的合并应该是一个平滑的推理力度光谱,而不是硬塞进去的两个人格。

什么才是真正的「智能体式思考」?

林俊旸给出的答案是:下一站,从Reasoning Thinking到Agentic Thinking(智能体式思考)。

这两个东西的优化目标完全不一样:

  • 推理式思考:「模型能不能想得够久?」,评价标准是给出最终答案前的内部推演质量
  • 智能体式思考:「模型能不能靠思考支撑有效行动?」,评价标准是在跟环境交互中能不能持续推进

智能体式思考要处理推理模型从来不用管的问题:

  • 什么时候该停止思考,动手行动
  • 该调用什么工具,顺序是什么
  • 环境反馈有噪声、不完整,怎么处理
  • 失败了怎么调整计划
  • 跨很多轮调用,思路不会断

一句话总结:Agentic Thinking就是通过行动来推理

下一代AI最难的坎儿不在模型,在环境

当目标从解决benchmark问题变成解决交互式任务,整个强化学习(RL)技术栈都要重构。

在推理RL里,环境就是静态的判分器,rollout就是一条完整的轨迹,一切都很干净。

但智能体RL不一样:策略要嵌在工具服务器、浏览器、终端、搜索引擎这些东西里面,环境本身就是训练系统的一部分。

这带来两个新的核心问题:

  1. 训练和推理必须解耦,不然rollout吞吐量会直接垮掉——推理等着执行反馈,训练等着完整轨迹,最后GPU利用率低到离谱。
  2. 环境本身变成了一等研究对象:SFT时代我们追求数据多样性,在AI智能体时代我们必须追求环境质量——稳不稳定、真不真实、覆盖够不够、有没有漏洞。现在环境构建已经开始变成正经的创业方向了。

还有一个绕不开的难题是Reward Hacking:模型能用工具之后,作弊变得容易太多——搜索模型直接查答案,编程Agent滥用日志信息,环境有漏洞的话,模型看起来超强,其实是学会了作弊。

未来AI拼的到底是什么?

林俊旸判断,Agentic Thinking一定会成为主流,最终会替代大部分旧式的静态独白式推理——那种越长越好、封闭在模型内部的推理,其实是在靠堆文字弥补没法跟外界交互的缺陷。

哪怕是最难的数学或编程题,真正先进的系统也应该能搜索、能模拟、能执行、能检查、能修改,最终目标是把问题稳稳解决。

整个行业的竞争重心也会彻底转移:

  • 推理时代:拼RL算法、拼反馈信号、拼训练流水线扩展性
  • 智能体时代:拼环境质量、拼训练推理紧耦合、拼harness工程能力、拼能不能把模型决策和结果真正闭环

行业已经从「训练模型」,走到「训练智能体」,下一步就是「训练系统」。

结语:从空想到行动

林俊旸这篇文章,是他离开千问后第一次公开谈行业方向,没有八卦,只聊判断。

当整个行业都在卷参数、卷推理长度的时候,有人站出来说「我们该换跑道了,从让模型空想,到让模型行动」,这本身就是一件很有意思的事。这不仅仅是技术路线的转变,更是一种思维范式的跃迁。对于行业内的开发者和研究者而言,理解并适应从推理模型到开源模型与智能体系统的转变,将是把握下一个技术浪潮的关键。更多关于技术趋势的深度讨论,欢迎来到云栈社区开发者广场交流。

你看好Agentic Thinking成为下一代AI的主流方向吗?




上一篇:AI智能体赋能,电子硬件研发流程如何与PLM系统深度集成
下一篇:C++ vector扩容因子:2倍与1.5倍的内存复用数学原理
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-31 04:01 , Processed in 0.640395 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表