云栈社区»论坛 › 开发者广场「Dev Plaza」 › 从静态推理到动态代理：AI模型为何必须学会与环境交互的演进之路 ...

发回帖发新帖

3464 积分	0 好友	464 主题

发消息

从静态推理到动态代理：AI模型为何必须学会与环境交互的演进之路

发表于 2026-3-30 00:35:31 | 查看: 73| 回复: 0

过去两年，行业彻底改变了评估模型性能的方式及其对模型的期待。OpenAI的o1系列表明，“思考”可以成为一项被刻意训练、并向用户展示的一流能力。DeepSeek-R1则证明了推理式的后训练方法能够在实验室之外被成功复制与扩展。OpenAI将o1描述为一个经过强化学习训练、“先思考再回答”的模型，而DeepSeek则将R1定位为与o1竞争的开放推理模型。

这个阶段无疑意义重大。但2025年上半年，行业的焦点主要围绕着“推理思维”展开：如何让模型花费更多的计算时间进行推理，如何用更强的奖励信号训练模型，以及如何暴露或控制这些额外的推理努力。现在，更关键的问题是：接下来会发生什么？

我认为答案指向“能动性思维”：一种为了行动而进行的思考，它需要模型与环境进行实时互动，并根据世界给予的反馈持续更新其计划。

1. o1和R1的兴起教会了我们什么？

第一波推理模型告诉我们一个核心事实：如果想在语言模型中规模化应用强化学习，就需要确定性、稳定且可扩展的反馈信号。数学、代码、逻辑以及其他可验证的领域因此成为核心舞台，因为这些环境中的奖励信号远比一般的偏好监督要强大和清晰。它们让强化学习更加聚焦于“正确性”，而非仅仅是“合理性”。在这个过程中，基础设施的支撑变得至关重要。

一旦模型被训练为能够推理更长的轨迹，强化学习就不再是监督微调阶段一个轻量级的附加品，而变成了一个系统性的工程问题。你需要大规模部署能力、高吞吐量的验证系统、稳定的策略更新机制以及高效的采样方法。推理模型的出现，既是基础能力的突破，也是系统工程能力的体现。OpenAI将o1描述为一条用强化学习训练的“推理线”，而后来发布的DeepSeek R1，则进一步强化了这个方向，展示了基于推理的强化学习所需的专门算法和基础设施工作量。第一个重大转变由此确立：从训练前的能力扩展，转向训练后的推理能力塑造。

2. 真正的问题从来不是“简单合并思维和教学”

在2025年初，我们（Qwen团队）许多人心中都怀有一个雄心勃勃的蓝图：理想的系统应统一“思维”和“教学”两种模式。它将支持可调节的推理力度，类似于设置“低/中/高”推理等级。更理想的情况是，模型能自动从提示和上下文中推断出合适的推理强度，从而自行决定何时立即回应，何时需要更长考，何时应对真正复杂的问题投入大量计算资源。

从概念上讲，这无疑是正确的方向。Qwen3是最明确的公开尝试之一。它引入了“混合思维模式”，支持一类包含思考和不思考的行为，强调可控的思维预算，并描述了一个包含长思维链冷启动和推理强化学习后的“思维模式融合”的四阶段训练流程。

然而，构想“合并”总是比成功“执行”要容易得多。真正的难点在于数据。当人们讨论合并思维与教学时，通常首先考虑的是模型端的兼容性：一个模型检查点能否同时支持两种模式？一个聊天模板能否在两者间无缝切换？一个服务栈能否暴露正确的开关？但更深层的问题是，这两种模式的数据分布和行为目标存在显著差异。

在平衡模型合并与提升训练后数据质量、多样性之间，我们并非总能做到完美。在修订过程中，我们也密切关注着用户实际与“思考”和“教学”模式互动的方式。一个强大的教学模型，其价值通常体现在直接性、简洁性、格式合规性，以及在重写、标记、模板支持、结构化提取和运营质量保证等重复性、高流量企业任务中的低延迟和高可靠性上。而一个强大的思考模型，其优势则在于能为复杂问题投入更多计算资源（代币），保持连贯的中间推理结构，探索替代解决路径，并通过保留足够的内部计算来实质性提升最终答案的正确性。

这两种行为特征在本质上是相互拉扯的。如果合并训练所用的数据未经精心策划，结果往往是两者都表现平庸：“思考”行为可能变得嘈杂、臃肿或优柔寡断；而“指导”行为则可能变得不够清晰、不可靠，且运行成本远超商业用户的实际预期。

实际上，保持分离依然具有强大的吸引力。在2025年晚些时候，继Qwen3初步尝试混合框架后，2507系列发布了独立的Instruct（教学）和Thinking（思考）更新，包括各自的30B和235B变体。在商业部署中，大量客户仍然希望批量操作能够实现高通量、低成本、高度可控的指令跟随行为。在这些场景下，合并显然不是优势。分开的模型路线让团队能够更清晰地专注于解决每种模式所特有的数据和训练挑战。

其他顶尖实验室则选择了看似相反的路线。Anthropic公开主张集成模型理念：Claude 3.7 Sonnet作为一种混合推理模型被推出，用户可以选择普通回应或开启扩展思考模式，API用户还可以设定思考预算。Anthropic明确表示，他们认为推理应成为一种整合能力，而非独立模型。GLM-4.5也公开定位为混合推理模型，兼具思考与非思考模式，统一了推理、编码和代理能力；DeepSeek后来在V3.1的“思考与非思考”混合推理中也采取了类似方向。

这里的关键问题是，合并是否“有机”。如果思维和教学仅仅是硬塞进同一个模型检查点，却依然表现得像两个笨拙拼接的“人格”，那么产品体验依然会显得不自然。真正成功的合并需要平滑的推理力度调节。模型应能表达多个层次的思考强度，并理想情况下能够自适应地选择。GPT风格的努力控制正暗示了这一点：它应是对计算资源的一种策略性分配，而非一个简单的二元开关。

3. 为什么Anthropic的指导方向是有益的纠正？

Anthropic对Claude 3.7和Claude 4的公开定位较为克制和务实。他们强调了整合推理、用户可控的思维预算、现实任务、编码质量，以及后来在扩展思考中融入工具使用的能力。Claude 3.7被呈现为一个预算可控的混合推理模型；而Claude 4通过允许推理与工具使用交织，Anthropic同时强调了编码、长期任务和代理工作流作为其主要目标。

这背后传递了一个重要观点：产生更长的推理轨迹并不自动让模型变得更智能。在许多情况下，过度的、外显的推理恰恰表明了模型分配注意力的能力较弱。如果一个模型试图用同样冗长的方式“推理”所有事情，那可能是因为它缺乏优先排序、无法压缩信息，或者就是无法做出行动决策。Anthropic的方向暗示了一种更有纪律的观点：思维应由目标工作量塑造。如果目标是编码，那么思考应有助于代码库导航、规划、分解、错误恢复和工具编排。如果目标是代理工作流，那么思考应当在长期跨度上提升执行质量，而不是产出看似令人印象深刻、实则冗余的中间散文。

这种对针对性效用的强调，指向了一个更大的问题：我们正从一个训练模型的时代，迈向一个训练智能体的时代。我们在Qwen3的博客中明确表达了这一点，写道“我们正从一个以训练模型为中心的时代过渡到以训练主体为中心的时代”，并将未来的强化学习进展与环境反馈相结合，以实现长期推理。智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修订战略并持续进行长期行动的系统。它通过与世界的闭环交互来定义。

4. “能动思维”的真正含义是什么？

代理思维是一种完全不同的优化目标。推理思维通常通过最终答案前的内部思考质量来评判：模型能否解决定理、写出证明、生成正确代码或通过特定的基准测试。而代理思维关注的则是：模型能否在与环境互动时持续进步并有效完成任务。

核心问题从“模型能否思考足够久？”转向了“模型能否以维持有效行动的方式进行思考？”。代理思维必须处理一些纯粹推理模型大多可以避免的挑战：

决定何时停止思考并采取行动
选择调用哪个工具以及按何种顺序调用
纳入来自环境的噪声或部分观测信息
在行动失败后修订原有计划
在多次轮转和多次工具调用中保持行动连贯性

简而言之，代理思维是一种通过行动来推理的模型。

5. 为什么能动强化学习的基础设施更难构建？

一旦优化目标从解决静态基准问题转向解决动态的交互式任务，强化学习的技术栈就发生了根本性变化。用于经典、封闭式逻辑问题的强化学习基础设施远远不够。

在推理强化学习中，你通常可以把“轨迹生成”视为一个相对独立的环节，评估者（例如数学验证器）也相对干净和确定。而在代理强化学习中，策略被嵌入到一个大得多的框架内：工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙盒、API层、内存系统和任务编排框架。环境不再是静态的验证器，而是训练系统本身不可或缺的一部分。

这带来了全新的系统性需求：训练回路和推理服务必须更干净利落地解耦。没有这种解耦，整体吞吐量会急剧下降。试想一个编码代理必须在实时测试框架上执行它生成的代码：如果推理端停滞等待执行反馈，训练端就会缺乏完整的交互轨迹，整个流程的GPU利用率将远低于传统强化学习的预期。如果再增加工具延迟、环境的部分可观测性以及状态保持需求，这些效率低下的问题会被进一步放大。结果就是，实验迭代过程在达到目标能力水平之前，就已经变得极其缓慢和痛苦。

环境本身也已成为一流的研究产物。在监督微调（SFT）时代，我们痴迷于数据的多样性。在代理时代，我们应同等关注环境的质量：稳定性、真实性、覆盖面、难度梯度、状态多样性、反馈信息的丰富性、抵抗策略“作弊”的能力，以及生成新场景的可扩展性。环境建设已经开始成为一个真正的创业类别，而不仅仅是一个副业项目。如果代理正在接受类似生产环境的训练，那么环境就是其核心能力栈的关键组成部分。

6. 对“下一个前沿”更实用的思考

我预期，能动思维（代理思维）将成为主流的“思考”形式。我认为它最终可能会取代旧的、静态的、独白式的“推理思维”——那种试图通过输出越来越长的内部文本来弥补缺乏互动的、孤立的长轨迹。即使在非常困难的数学或编程任务中，真正先进的系统也应该有权进行搜索、模拟、执行、检查、验证和修改。目标是以有力且富有成效的方式解决问题，而不是单纯地产出文本。

训练此类系统最严峻的挑战之一是奖励黑客。一旦模型获得了有意义的工具访问权限，奖励黑客行为就变得更加危险。具备搜索功能的模型可能在强化学习过程中直接查找答案。编码代理可能会利用代码仓库中的未来信息，滥用日志系统，或发现使任务目标失效的“捷径”。存在隐藏漏洞的环境可以让策略看起来表现超常，实际上却训练它学会了“作弊”。这就是智能体时代比推理时代更为脆弱的地方。更好的工具使模型更有用，但也极大地扩大了虚假优化的攻击面。我们应该预期，下一个严重的研究瓶颈将来自环境设计、评估器的鲁棒性、反作弊协议以及策略与世界之间更有原则的接口设计。

不过，方向是明确的。工具驱动的思考远比孤立的思考更有用，也更有可能提升实际生产力。

代理思维也意味着系统架构工程。核心智能将越来越多地来自多个智能体的组织方式：一个负责高级规划和资源分配的“编排者”，像领域专家一样运作的“专业智能体”，以及执行更狭窄任务、帮助控制上下文、避免思维污染并保持不同推理层级间清晰分离的“子智能体”。未来将是从训练单一模型，转向训练多个协作的代理，再进一步转向训练整个智能系统。

结论

推理浪潮的第一阶段确立了一个重要事实：当反馈信号足够可靠，且基础设施能够提供支持时，基于语言模型的强化学习能够产生更强大的定性认知能力。

更深层次的转变则是从“推理思维”转向“能动性思维”：从“思考更长时间”到“为了行动而思考”。训练的核心目标已经发生了变化。它不再仅仅是关于模型本身，而是关于“模型+环境”系统，或者更具体地说，是关于“代理及其周围的赋能架构”。这改变了研究成果最重要的部分：模型架构和训练数据固然关键，但环境设计、部署基础设施、评估器的鲁棒性以及多个代理间的协调接口也变得同样重要。它也改变了“良好思维”的含义：它指的是在现实约束下能有效支撑和维持行动的痕迹，而非最长或最显眼的痕迹。

这也改变了竞争优势的来源。在推理时代，优势来自更好的强化学习算法、更强的反馈信号和更具可扩展性的训练流程。在代理时代，优势将来自更好的环境模拟、更紧密的训练与服务整合、更强的系统架构工程能力，以及闭合“模型决策”与“现实世界后果”之间反馈回路的能力。

本文观点源自技术社区的深度观察与行业实践。关注云栈社区，获取更多前沿技术动态与开发资源。

上一篇：手游逆向实战复盘：Unity IL2CPP Dump与自定义TCP协议完整解析
下一篇：AI设计流程变革：从Figma到Claude，工程师与设计师的角色重塑

人工智能, 强化学习, 大语言模型, OpenAI, Claude