OpenAI的o1模型点燃了推理浪潮后,AI的下一步该往哪里走?前阿里通义千问负责人林俊旸给出了他的判断。
推理浪潮留下了什么真正的遗产?
过去两年,o1和DeepSeek-R1让整个行业看到:「思考」本身可以成为模型的一等能力。
但第一波推理模型真正教会我们的,其实不是「让模型想得更久」,而是一套全新的系统工程方法论:
要在语言模型上跑通大规模强化学习,反馈信号必须是确定、稳定、可扩展的。数学、代码这些能验证对错的领域,天然比人类偏好标注更适合RL。
当模型开始在更长的推理轨迹上训练,RL不再是SFT上面的薄薄一层,而是变成了完整的系统问题——你需要大规模rollout、高吞吐验证、稳定的策略更新。
第一个真正的拐点已经发生:我们从「扩展预训练」,正式进入了「扩展推理后训练」的时代。
为什么「合并思考与指令」这么难?
2025年初,行业里很多团队都想做一件事:把思考模式和指令模式合并到一个模型里,让模型自己判断该想多久。
千问团队的Qwen3是业内最清晰的公开尝试,但林俊旸坦诚——这件事没那么简单。
真正的难点不在模型侧,而在数据:
- 好的指令模型追求干脆利落、低延迟,适合大批量的企业任务(改写、标注、结构化提取)
- 好的思考模型追求多花token探索路径,靠内部计算提升最终准确率
两种行为目标天然互斥,数据没精心策展的话,结果就是两头不讨好:思考变啰嗦,指令变拖沓。
所以现在行业出现了两条路线:一条是Anthropic走的集成路线(Claude 3.7 Sonnet允许用户自己控制思考预算),另一条是千问后来选择的分开路线(独立发布Instruct和Thinking版本)。
林俊旸说,关键不在于选哪条路,而在于合并是不是自然长出来的——真正好的合并应该是一个平滑的推理力度光谱,而不是硬塞进去的两个人格。
什么才是真正的「智能体式思考」?
林俊旸给出的答案是:下一站,从Reasoning Thinking到Agentic Thinking(智能体式思考)。
这两个东西的优化目标完全不一样:
- 推理式思考:「模型能不能想得够久?」,评价标准是给出最终答案前的内部推演质量
- 智能体式思考:「模型能不能靠思考支撑有效行动?」,评价标准是在跟环境交互中能不能持续推进
智能体式思考要处理推理模型从来不用管的问题:
- 什么时候该停止思考,动手行动
- 该调用什么工具,顺序是什么
- 环境反馈有噪声、不完整,怎么处理
- 失败了怎么调整计划
- 跨很多轮调用,思路不会断
一句话总结:Agentic Thinking就是通过行动来推理。
下一代AI最难的坎儿不在模型,在环境
当目标从解决benchmark问题变成解决交互式任务,整个强化学习(RL)技术栈都要重构。
在推理RL里,环境就是静态的判分器,rollout就是一条完整的轨迹,一切都很干净。
但智能体RL不一样:策略要嵌在工具服务器、浏览器、终端、搜索引擎这些东西里面,环境本身就是训练系统的一部分。
这带来两个新的核心问题:
- 训练和推理必须解耦,不然rollout吞吐量会直接垮掉——推理等着执行反馈,训练等着完整轨迹,最后GPU利用率低到离谱。
- 环境本身变成了一等研究对象:SFT时代我们追求数据多样性,在AI智能体时代我们必须追求环境质量——稳不稳定、真不真实、覆盖够不够、有没有漏洞。现在环境构建已经开始变成正经的创业方向了。
还有一个绕不开的难题是Reward Hacking:模型能用工具之后,作弊变得容易太多——搜索模型直接查答案,编程Agent滥用日志信息,环境有漏洞的话,模型看起来超强,其实是学会了作弊。
未来AI拼的到底是什么?
林俊旸判断,Agentic Thinking一定会成为主流,最终会替代大部分旧式的静态独白式推理——那种越长越好、封闭在模型内部的推理,其实是在靠堆文字弥补没法跟外界交互的缺陷。
哪怕是最难的数学或编程题,真正先进的系统也应该能搜索、能模拟、能执行、能检查、能修改,最终目标是把问题稳稳解决。
整个行业的竞争重心也会彻底转移:
- 推理时代:拼RL算法、拼反馈信号、拼训练流水线扩展性
- 智能体时代:拼环境质量、拼训练推理紧耦合、拼harness工程能力、拼能不能把模型决策和结果真正闭环
行业已经从「训练模型」,走到「训练智能体」,下一步就是「训练系统」。
结语:从空想到行动
林俊旸这篇文章,是他离开千问后第一次公开谈行业方向,没有八卦,只聊判断。
当整个行业都在卷参数、卷推理长度的时候,有人站出来说「我们该换跑道了,从让模型空想,到让模型行动」,这本身就是一件很有意思的事。这不仅仅是技术路线的转变,更是一种思维范式的跃迁。对于行业内的开发者和研究者而言,理解并适应从推理模型到开源模型与智能体系统的转变,将是把握下一个技术浪潮的关键。更多关于技术趋势的深度讨论,欢迎来到云栈社区的开发者广场交流。
你看好Agentic Thinking成为下一代AI的主流方向吗?