找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3687

积分

0

好友

507

主题
发表于 2026-2-12 12:53:40 | 查看: 35| 回复: 0

近年来,大语言模型(LLM)的能力边界不断拓展,但面对开放、动态的现实世界任务时,其被动、静态的推理模式仍显不足。为此,由谷歌、Meta、亚马逊等多所顶尖机构的研究者联合发布了一篇题为《Agentic Reasoning for Large Language Models》的综述论文,系统性地提出了 Agentic Reasoning(智能体推理) 这一全新范式,旨在将LLM从被动的文本生成器转变为能够主动规划、行动、学习的自主智能体。

《Agentic Reasoning for Large Language Models》论文封面图,展示了来自伊利诺伊大学、Meta、亚马逊、Google DeepMind、UCSD和耶鲁大学的合作作者名单

一、为何需要 Agentic Reasoning?

传统的大模型推理在封闭世界问题(如数学、代码生成)上表现出色,但在开放、动态的环境中,它缺乏行动、适应、改进的核心能力。Agentic Reasoning 将推理重新定位为智能体的核心机制,其定义涵盖:

Agentic Reasoning 将推理定位为智能体的核心机制,涵盖:

  • 基础能力: 规划、工具使用、搜索
  • 自我进化: 反馈驱动、记忆增强的持续适应
  • 集体智能: 多智能体协作与协调

可通过上下文编排后训练优化实现

Agentic Reasoning系统概览图,展示了从用户任务提出到解决的完整流程,涵盖LLM推理到代理推理的转换、基础能力、自演化及多智能体协作等模块

论文通过一张对比表清晰地揭示了LLM推理与Agentic Reasoning的本质区别:

对比传统LLM推理与Agentic Reasoning的表格,涵盖了范式、计算、状态保持、学习和目标导向五个维度

二、三维框架:从个体到集体,从静态到进化

论文的核心贡献是提出了一个层次化的三维架构

  • 基础能力层(Foundational)→ 自我进化层(Self-Evolving)→ 集体协作层(Collective)
  • 并贯穿两种优化模式:上下文推理(In-Context)与后训练优化(Post-Training)

2.1 第一层:基础智能体推理(Foundational)

这是单智能体在相对稳定环境中的核心能力三角:

能力 关键机制 代表性方法
规划(Planning) 任务分解、树搜索、工作流设计 ReAct, ToT, GoT, ReWOO
工具使用(Tool Use) API调用、代码执行、外部系统交互 Toolformer, Gorilla, HuggingGPT
搜索(Search) 动态检索、知识图谱遍历、网络浏览 Self-RAG, DeepRAG, WebGPT

规划能力的演进
规划是智能体推理的基石。如下图所示,规划主要分为上下文规划与后训练规划两大类。

规划推理概览图,分为上下文规划和后训练规划两大类,并详细展示了工作流设计、树搜索、过程形式化、分解、工具使用及奖励设计等子模块

  • 上下文规划(In-Context):通过提示工程让LLM在推理时生成计划。
    • 工作流设计: 将任务分解为感知→推理→执行→验证的阶段。
    • 树搜索: 模拟BFS/DFS/A*/MCTS等算法过程,探索不同的推理路径。
    • 过程形式化: 使用PDDL(规划域定义语言)或代码来表示计划。
  • 后训练规划(Post-Training):通过训练让模型内部学会规划。
    • 奖励设计: 通过强化学习(Reinforcement Learning) 优化智能体的长期行为。
    • 最优控制: 利用轨迹优化与扩散模型等技术生成高质量规划序列。

代表性Agentic规划系统分类表,按模态、结构、格式和工具进行分类,涵盖了语言代理和视觉/多模态代理两大类

工具使用的三层架构
工具使用能力使智能体能够突破模型本身的限制。传统LLM与智能工具系统的对比如下:

传统LLM与Agentic工具系统对比图,突出展示了智能系统在上下文感知、动态工具选择与编排方面的优势

集成方式 特点 代表工作
上下文集成 零样本提示、少样本示例 ReAct, ART, ChatCoT
后训练集成 SFT/RL学习工具调用 Toolformer, ToolLLM, ToolRL
编排式集成 多工具协调与依赖管理 HuggingGPT, OctoTools, ToolChain*

Agentic搜索:从静态RAG到动态探索
传统的RAG(检索增强生成)依赖静态的向量数据库检索,而Agentic搜索引入了自主决策机制。

传统RAG系统与Agentic搜索系统架构对比图,展示了后者在动态检索、推理、批判与适应循环等方面的增强

关键区别在于,智能体需要自主决定何时检索、检索什么、如何检索,并支持批判-适应循环,根据中间结果动态调整搜索策略,而非一次性检索后生成答案。

2.2 第二层:自我进化智能体推理(Self-Evolving)

这一层旨在解决核心问题:如何让智能体从经验中持续改进?

反馈机制的三重奏
反馈是智能体进化的燃料。论文总结了三种主要形式:

三种Agentic反馈机制示意图:反思反馈、参数化适应和验证器驱动反馈

反馈类型 机制 更新目标 代表系统
反思性反馈 自批判+推理轨迹修正 推理路径 Reflexion, Self-Refine
参数适应 训练数据整合 模型参数 AgentTuning, ReST, Distill-CoT
验证器驱动 外部验证信号 输出选择 ReZero, CodeRL, SWE-bench

智能体记忆:从存储到推理
记忆是智能体保持状态、积累经验的基础。Agentic Memory 的设计包含三个维度:

Agentic记忆的三维度概览图:上下文使用、结构化表示和后训练控制

维度 形式 功能
上下文使用 对话历史、工作流、轨迹 即时上下文增强
结构化表示 知识图谱、多模态记忆 关系推理与跨模态关联
后训练控制 RL优化的记忆管理 动态更新与遗忘决策

该领域的关键进展包括:

  • GraphRAG/MEM0: 利用图结构记忆实现复杂多跳推理。
  • Memory-R1: 采用双智能体设计(记忆管理器+回答智能体)。
  • Memory-as-Action: 将记忆的编辑与存储直接纳入智能体的行动策略。

进化中的基础能力
在反馈与记忆的驱动下,智能体的规划、工具使用和搜索等基础能力也能不断进化。

自演化基础能力概览图,展示了规划、工具使用和搜索三个维度的进化形式

能力 进化形式
规划进化 任务自动生成、策略精炼(SCA, Self-Rewarding, RAGEN)
工具进化 工具合成与创造(LATM, CRAFT, ToolMaker)
搜索进化 知识合成、动态检索策略(Reflexion, MemOS)

2.3 第三层:集体多智能体推理(Collective)

这一层将智能从个体扩展到协作系统,通过多智能体的分工与协作解决更复杂的问题。

角色分类学
多智能体系统中的角色可以大致分为通用角色和领域特定角色。

通用角色(如领导者、执行者、批评者)与特定领域(如软件工程、金融、医疗)的对应关系图

  • 通用角色
    • Leader/Coordinator: 负责全局目标分解与冲突仲裁。
    • Worker/Executor: 负责具体行动执行。
    • Critic/Evaluator: 负责质量保障与风险识别。
    • Memory Keeper: 负责长期知识维护。
    • Communication Facilitator: 负责通信协议管理。
  • 领域特定角色:在软件工程、金融、法律、医疗、教育、生物医学、音乐等领域有具体化身。

协作与分工
多智能体如何协作?主要分为上下文协作和后训练协作两种模式。

多智能体协作概览图,分为上下文协作(手动设计流水线、LLM驱动编排)和后训练协作(图拓扑优化、策略式训练)

协作模式 方法 特点
手动设计流水线 级联、层次、基于角色 可解释但缺乏灵活性
LLM驱动编排 AutoGen, Magentic-One, MAS-GPT 动态适应任务需求
图拓扑优化 GommFormer, AgentPrune, AFlow 学习最优通信结构
策略式训练 MAGRPO, MHGPO, COPY RL优化协作策略

多智能体记忆管理
当多个智能体共同工作时,记忆的设计与管理变得更加复杂。论文提出了一个四维度框架:

多智能体记忆设计的四个维度:架构、内容、拓扑和管理

维度 关键设计
架构 层次化(G-Memory)vs 扁平化(Intrinsic Memory Agents)
拓扑 集中式(SEDM)vs 分布式(Collaborative Memory)vs 共享池
内容 语义分解(MIRIX)vs 任务分解(LEGOMem)vs 认知阶段(MAPLE)
管理 摘要-遗忘(Lyfe Agents)vs 过滤-验证(AGENT-KB)

三、应用领域:从数学到现实世界

Agentic Reasoning 的能力正在多个前沿领域展现价值。

Agentic推理的应用领域概览图,涵盖了数学探索、科学发现、具身智能、医疗健康和网络研究等

领域 核心挑战 关键能力/系统
数学探索与Vibe编码 竞赛级推理、复杂代码生成 AlphaEvolve, OpenHands, Cursor
科学发现 假设生成、实验设计自动化 ChemCrow, Coscientist, The AI Scientist
具身智能 长程规划、物理环境交互 Voyager, SayCan, CosmosReason1
医疗健康 安全约束、多模态证据整合 MedAgent-Pro, TxAgent, MDAgents
自主网络探索 动态环境交互、信息合成 WebArena, Mind2Web, DeepResearcher

四、评测基准:从机制到应用

为了系统评估Agentic Reasoning的能力,学界构建了丰富的评测基准,主要分为能力中心型和应用中心型。

评测基准概览图,分为能力中心型基准(工具使用、记忆管理、多智能体协作)和应用中心型基准(具身智能、科学发现等)

机制 基准示例 评估重点
工具使用 ToolBench, APIBench, T-Eval 单轮/多轮工具调用准确性
搜索 WebArena, Mind2Web, FinBrowseComp 信息检索与整合能力
记忆与规划 LOCOMO, LongMemEval, ALFWorld 长程记忆保持与规划一致性
多智能体 AgentBench, MultiAgentBench, MAgIC 协作、竞争、社会推理

总结与资源

这篇综述为我们勾勒出大模型智能体推理清晰的发展蓝图:从静态、被动的LLM,到具备基础行动能力的智能体,再到能够自我进化、协同工作的智能体社会。其提出的三维框架(基础-自进化-集体)和两种实现路径(上下文-后训练),为后续的研究与实践提供了宝贵的结构化视角。

Transformer架构为基础的现代大语言模型而言,融合Agentic Reasoning是通向更通用、更强大人工智能的关键一步。随着规划、工具使用、记忆、协作等能力的不断深化与融合,我们有望看到AI在科研、医疗、教育等复杂现实任务中发挥更大作用。

如果你对构建或研究智能体系统感兴趣,这篇论文及相关资源是绝佳的起点。欢迎在云栈社区人工智能板块与其他开发者交流探讨。

论文与资源链接:




上一篇:MyBatis连接池踩坑实录:支付成功但订单丢失的诡异排查
下一篇:清华联合团队发布UltraData分级治理体系,开源2.4T数据与4大工具
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-23 11:42 , Processed in 0.376842 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表