云栈社区»论坛 › 技术文档「 Note & Doc 」 › 大模型Agentic Reasoning综述：解析智能体推理的三维框架与演进 ...

5120 积分	0 好友	708 主题

发消息

大模型Agentic Reasoning综述：解析智能体推理的三维框架与演进路径

发表于 2026-2-12 12:53:40 | 查看: 113| 回复: 0

近年来，大语言模型（LLM）的能力边界不断拓展，但面对开放、动态的现实世界任务时，其被动、静态的推理模式仍显不足。为此，由谷歌、Meta、亚马逊等多所顶尖机构的研究者联合发布了一篇题为《Agentic Reasoning for Large Language Models》的综述论文，系统性地提出了 Agentic Reasoning（智能体推理） 这一全新范式，旨在将LLM从被动的文本生成器转变为能够主动规划、行动、学习的自主智能体。

《Agentic Reasoning for Large Language Models》论文封面图，展示了来自伊利诺伊大学、Meta、亚马逊、Google DeepMind、UCSD和耶鲁大学的合作作者名单

一、为何需要 Agentic Reasoning？

传统的大模型推理在封闭世界问题（如数学、代码生成）上表现出色，但在开放、动态的环境中，它缺乏行动、适应、改进的核心能力。Agentic Reasoning 将推理重新定位为智能体的核心机制，其定义涵盖：

Agentic Reasoning 将推理定位为智能体的核心机制，涵盖：

基础能力: 规划、工具使用、搜索

自我进化: 反馈驱动、记忆增强的持续适应

集体智能: 多智能体协作与协调

可通过上下文编排或后训练优化实现

Agentic Reasoning系统概览图，展示了从用户任务提出到解决的完整流程，涵盖LLM推理到代理推理的转换、基础能力、自演化及多智能体协作等模块

论文通过一张对比表清晰地揭示了LLM推理与Agentic Reasoning的本质区别：

对比传统LLM推理与Agentic Reasoning的表格，涵盖了范式、计算、状态保持、学习和目标导向五个维度

二、三维框架：从个体到集体，从静态到进化

论文的核心贡献是提出了一个层次化的三维架构：

基础能力层（Foundational）→ 自我进化层（Self-Evolving）→ 集体协作层（Collective）
并贯穿两种优化模式：上下文推理（In-Context）与后训练优化（Post-Training）。

2.1 第一层：基础智能体推理（Foundational）

这是单智能体在相对稳定环境中的核心能力三角：

能力	关键机制	代表性方法
规划（Planning）	任务分解、树搜索、工作流设计	ReAct, ToT, GoT, ReWOO
工具使用（Tool Use）	API调用、代码执行、外部系统交互	Toolformer, Gorilla, HuggingGPT
搜索（Search）	动态检索、知识图谱遍历、网络浏览	Self-RAG, DeepRAG, WebGPT

规划能力的演进
规划是智能体推理的基石。如下图所示，规划主要分为上下文规划与后训练规划两大类。

规划推理概览图，分为上下文规划和后训练规划两大类，并详细展示了工作流设计、树搜索、过程形式化、分解、工具使用及奖励设计等子模块

上下文规划（In-Context）：通过提示工程让LLM在推理时生成计划。
- 工作流设计: 将任务分解为感知→推理→执行→验证的阶段。
- 树搜索: 模拟BFS/DFS/A*/MCTS等算法过程，探索不同的推理路径。
- 过程形式化: 使用PDDL（规划域定义语言）或代码来表示计划。
后训练规划（Post-Training）：通过训练让模型内部学会规划。
- 奖励设计: 通过强化学习（Reinforcement Learning） 优化智能体的长期行为。
- 最优控制: 利用轨迹优化与扩散模型等技术生成高质量规划序列。

代表性Agentic规划系统分类表，按模态、结构、格式和工具进行分类，涵盖了语言代理和视觉/多模态代理两大类

工具使用的三层架构
工具使用能力使智能体能够突破模型本身的限制。传统LLM与智能工具系统的对比如下：

传统LLM与Agentic工具系统对比图，突出展示了智能系统在上下文感知、动态工具选择与编排方面的优势

集成方式	特点	代表工作
上下文集成	零样本提示、少样本示例	ReAct, ART, ChatCoT
后训练集成	SFT/RL学习工具调用	Toolformer, ToolLLM, ToolRL
编排式集成	多工具协调与依赖管理	HuggingGPT, OctoTools, ToolChain*

Agentic搜索：从静态RAG到动态探索
传统的RAG（检索增强生成）依赖静态的向量数据库检索，而Agentic搜索引入了自主决策机制。

传统RAG系统与Agentic搜索系统架构对比图，展示了后者在动态检索、推理、批判与适应循环等方面的增强

关键区别在于，智能体需要自主决定何时检索、检索什么、如何检索，并支持批判-适应循环，根据中间结果动态调整搜索策略，而非一次性检索后生成答案。

2.2 第二层：自我进化智能体推理（Self-Evolving）

这一层旨在解决核心问题：如何让智能体从经验中持续改进？

反馈机制的三重奏
反馈是智能体进化的燃料。论文总结了三种主要形式：

三种Agentic反馈机制示意图：反思反馈、参数化适应和验证器驱动反馈

反馈类型	机制	更新目标	代表系统
反思性反馈	自批判+推理轨迹修正	推理路径	Reflexion, Self-Refine
参数适应	训练数据整合	模型参数	AgentTuning, ReST, Distill-CoT
验证器驱动	外部验证信号	输出选择	ReZero, CodeRL, SWE-bench

智能体记忆：从存储到推理
记忆是智能体保持状态、积累经验的基础。Agentic Memory 的设计包含三个维度：

Agentic记忆的三维度概览图：上下文使用、结构化表示和后训练控制

维度	形式	功能
上下文使用	对话历史、工作流、轨迹	即时上下文增强
结构化表示	知识图谱、多模态记忆	关系推理与跨模态关联
后训练控制	RL优化的记忆管理	动态更新与遗忘决策

该领域的关键进展包括：

GraphRAG/MEM0: 利用图结构记忆实现复杂多跳推理。
Memory-R1: 采用双智能体设计（记忆管理器+回答智能体）。
Memory-as-Action: 将记忆的编辑与存储直接纳入智能体的行动策略。

进化中的基础能力
在反馈与记忆的驱动下，智能体的规划、工具使用和搜索等基础能力也能不断进化。

自演化基础能力概览图，展示了规划、工具使用和搜索三个维度的进化形式

能力	进化形式
规划进化	任务自动生成、策略精炼（SCA, Self-Rewarding, RAGEN）
工具进化	工具合成与创造（LATM, CRAFT, ToolMaker）
搜索进化	知识合成、动态检索策略（Reflexion, MemOS）

2.3 第三层：集体多智能体推理（Collective）

这一层将智能从个体扩展到协作系统，通过多智能体的分工与协作解决更复杂的问题。

角色分类学
多智能体系统中的角色可以大致分为通用角色和领域特定角色。

通用角色（如领导者、执行者、批评者）与特定领域（如软件工程、金融、医疗）的对应关系图

通用角色：
- Leader/Coordinator: 负责全局目标分解与冲突仲裁。
- Worker/Executor: 负责具体行动执行。
- Critic/Evaluator: 负责质量保障与风险识别。
- Memory Keeper: 负责长期知识维护。
- Communication Facilitator: 负责通信协议管理。
领域特定角色：在软件工程、金融、法律、医疗、教育、生物医学、音乐等领域有具体化身。

协作与分工
多智能体如何协作？主要分为上下文协作和后训练协作两种模式。

多智能体协作概览图，分为上下文协作（手动设计流水线、LLM驱动编排）和后训练协作（图拓扑优化、策略式训练）

协作模式	方法	特点
手动设计流水线	级联、层次、基于角色	可解释但缺乏灵活性
LLM驱动编排	AutoGen, Magentic-One, MAS-GPT	动态适应任务需求
图拓扑优化	GommFormer, AgentPrune, AFlow	学习最优通信结构
策略式训练	MAGRPO, MHGPO, COPY	RL优化协作策略

多智能体记忆管理
当多个智能体共同工作时，记忆的设计与管理变得更加复杂。论文提出了一个四维度框架：

多智能体记忆设计的四个维度：架构、内容、拓扑和管理

维度	关键设计
架构	层次化（G-Memory）vs 扁平化（Intrinsic Memory Agents）
拓扑	集中式（SEDM）vs 分布式（Collaborative Memory）vs 共享池
内容	语义分解（MIRIX）vs 任务分解（LEGOMem）vs 认知阶段（MAPLE）
管理	摘要-遗忘（Lyfe Agents）vs 过滤-验证（AGENT-KB）

三、应用领域：从数学到现实世界

Agentic Reasoning 的能力正在多个前沿领域展现价值。

Agentic推理的应用领域概览图，涵盖了数学探索、科学发现、具身智能、医疗健康和网络研究等

领域	核心挑战	关键能力/系统
数学探索与Vibe编码	竞赛级推理、复杂代码生成	AlphaEvolve, OpenHands, Cursor
科学发现	假设生成、实验设计自动化	ChemCrow, Coscientist, The AI Scientist
具身智能	长程规划、物理环境交互	Voyager, SayCan, CosmosReason1
医疗健康	安全约束、多模态证据整合	MedAgent-Pro, TxAgent, MDAgents
自主网络探索	动态环境交互、信息合成	WebArena, Mind2Web, DeepResearcher

四、评测基准：从机制到应用

为了系统评估Agentic Reasoning的能力，学界构建了丰富的评测基准，主要分为能力中心型和应用中心型。

评测基准概览图，分为能力中心型基准（工具使用、记忆管理、多智能体协作）和应用中心型基准（具身智能、科学发现等）

机制	基准示例	评估重点
工具使用	ToolBench, APIBench, T-Eval	单轮/多轮工具调用准确性
搜索	WebArena, Mind2Web, FinBrowseComp	信息检索与整合能力
记忆与规划	LOCOMO, LongMemEval, ALFWorld	长程记忆保持与规划一致性
多智能体	AgentBench, MultiAgentBench, MAgIC	协作、竞争、社会推理

总结与资源

这篇综述为我们勾勒出大模型智能体推理清晰的发展蓝图：从静态、被动的LLM，到具备基础行动能力的智能体，再到能够自我进化、协同工作的智能体社会。其提出的三维框架（基础-自进化-集体）和两种实现路径（上下文-后训练），为后续的研究与实践提供了宝贵的结构化视角。

对Transformer架构为基础的现代大语言模型而言，融合Agentic Reasoning是通向更通用、更强大人工智能的关键一步。随着规划、工具使用、记忆、协作等能力的不断深化与融合，我们有望看到AI在科研、医疗、教育等复杂现实任务中发挥更大作用。

如果你对构建或研究智能体系统感兴趣，这篇论文及相关资源是绝佳的起点。欢迎在云栈社区的人工智能板块与其他开发者交流探讨。

论文与资源链接：

论文原文：https://arxiv.org/pdf/2601.12538
Github资源库：https://github.com/weitianxin/Awesome-Agentic-Reasoning

上一篇：MyBatis连接池踩坑实录：支付成功但订单丢失的诡异排查
下一篇：清华联合团队发布UltraData分级治理体系，开源2.4T数据与4大工具

大语言模型, 智能体推理, 智能体, 多智能体系统, Transformer