3938 积分	0 好友	514 主题

发消息

前阿里通义千问负责人林俊旸：AI智能体与Agentic Thinking是行业下一站

发表于 2026-3-31 02:34:37 | 查看: 159| 回复: 0

OpenAI的o1模型点燃了推理浪潮后，AI的下一步该往哪里走？前阿里通义千问负责人林俊旸给出了他的判断。

推理浪潮留下了什么真正的遗产？

过去两年，o1和DeepSeek-R1让整个行业看到：「思考」本身可以成为模型的一等能力。

但第一波推理模型真正教会我们的，其实不是「让模型想得更久」，而是一套全新的系统工程方法论：

要在语言模型上跑通大规模强化学习，反馈信号必须是确定、稳定、可扩展的。数学、代码这些能验证对错的领域，天然比人类偏好标注更适合RL。

当模型开始在更长的推理轨迹上训练，RL不再是SFT上面的薄薄一层，而是变成了完整的系统问题——你需要大规模rollout、高吞吐验证、稳定的策略更新。

第一个真正的拐点已经发生：我们从「扩展预训练」，正式进入了「扩展推理后训练」的时代。

为什么「合并思考与指令」这么难？

2025年初，行业里很多团队都想做一件事：把思考模式和指令模式合并到一个模型里，让模型自己判断该想多久。

千问团队的Qwen3是业内最清晰的公开尝试，但林俊旸坦诚——这件事没那么简单。

真正的难点不在模型侧，而在数据：

好的指令模型追求干脆利落、低延迟，适合大批量的企业任务（改写、标注、结构化提取）
好的思考模型追求多花token探索路径，靠内部计算提升最终准确率

两种行为目标天然互斥，数据没精心策展的话，结果就是两头不讨好：思考变啰嗦，指令变拖沓。

所以现在行业出现了两条路线：一条是Anthropic走的集成路线（Claude 3.7 Sonnet允许用户自己控制思考预算），另一条是千问后来选择的分开路线（独立发布Instruct和Thinking版本）。

林俊旸说，关键不在于选哪条路，而在于合并是不是自然长出来的——真正好的合并应该是一个平滑的推理力度光谱，而不是硬塞进去的两个人格。

什么才是真正的「智能体式思考」？

林俊旸给出的答案是：下一站，从Reasoning Thinking到Agentic Thinking（智能体式思考）。

这两个东西的优化目标完全不一样：

推理式思考：「模型能不能想得够久？」，评价标准是给出最终答案前的内部推演质量
智能体式思考：「模型能不能靠思考支撑有效行动？」，评价标准是在跟环境交互中能不能持续推进

智能体式思考要处理推理模型从来不用管的问题：

什么时候该停止思考，动手行动
该调用什么工具，顺序是什么
环境反馈有噪声、不完整，怎么处理
失败了怎么调整计划
跨很多轮调用，思路不会断

一句话总结：Agentic Thinking就是通过行动来推理。

下一代AI最难的坎儿不在模型，在环境

当目标从解决benchmark问题变成解决交互式任务，整个强化学习（RL）技术栈都要重构。

在推理RL里，环境就是静态的判分器，rollout就是一条完整的轨迹，一切都很干净。

但智能体RL不一样：策略要嵌在工具服务器、浏览器、终端、搜索引擎这些东西里面，环境本身就是训练系统的一部分。

这带来两个新的核心问题：

训练和推理必须解耦，不然rollout吞吐量会直接垮掉——推理等着执行反馈，训练等着完整轨迹，最后GPU利用率低到离谱。
环境本身变成了一等研究对象：SFT时代我们追求数据多样性，在AI智能体时代我们必须追求环境质量——稳不稳定、真不真实、覆盖够不够、有没有漏洞。现在环境构建已经开始变成正经的创业方向了。

还有一个绕不开的难题是Reward Hacking：模型能用工具之后，作弊变得容易太多——搜索模型直接查答案，编程Agent滥用日志信息，环境有漏洞的话，模型看起来超强，其实是学会了作弊。

未来AI拼的到底是什么？

林俊旸判断，Agentic Thinking一定会成为主流，最终会替代大部分旧式的静态独白式推理——那种越长越好、封闭在模型内部的推理，其实是在靠堆文字弥补没法跟外界交互的缺陷。

哪怕是最难的数学或编程题，真正先进的系统也应该能搜索、能模拟、能执行、能检查、能修改，最终目标是把问题稳稳解决。

整个行业的竞争重心也会彻底转移：

推理时代：拼RL算法、拼反馈信号、拼训练流水线扩展性
智能体时代：拼环境质量、拼训练推理紧耦合、拼harness工程能力、拼能不能把模型决策和结果真正闭环

行业已经从「训练模型」，走到「训练智能体」，下一步就是「训练系统」。

结语：从空想到行动

林俊旸这篇文章，是他离开千问后第一次公开谈行业方向，没有八卦，只聊判断。

当整个行业都在卷参数、卷推理长度的时候，有人站出来说「我们该换跑道了，从让模型空想，到让模型行动」，这本身就是一件很有意思的事。这不仅仅是技术路线的转变，更是一种思维范式的跃迁。对于行业内的开发者和研究者而言，理解并适应从推理模型到开源模型与智能体系统的转变，将是把握下一个技术浪潮的关键。更多关于技术趋势的深度讨论，欢迎来到云栈社区的开发者广场交流。

你看好Agentic Thinking成为下一代AI的主流方向吗？

上一篇：AI智能体赋能，电子硬件研发流程如何与PLM系统深度集成
下一篇：C++ vector扩容因子：2倍与1.5倍的内存复用数学原理

AI智能体, 智能体思考, 大语言模型, 强化学习, 通义千问