找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2933

积分

0

好友

402

主题
发表于 2025-12-24 11:54:08 | 查看: 67| 回复: 0

过去一年,大语言模型的能力边界持续被拓展:从代码生成、数学解题到工具调用,甚至已能实现“自动搜索”。然而,一个愈发尖锐的问题也随之浮现:当任务没有标准答案,当所需信息分散在网页、论文、图表之间,当我们需要一份“可核查、可复用的完整结论”时,大模型真的已经掌握“做研究”这项技能了吗?

近期,腾讯混元数字人团队联合清华大学、卡内基梅隆大学等13家机构,发布了首个系统性梳理Deep Research方向的综述论文。该工作整理并分析了500余篇相关研究,全面回顾了AI智能体在开放式任务场景下的发展脉络与关键挑战。

论文与资源

从 RAG 到 Deep Research

传统的RAG(检索增强生成) 已成为工业界标准,遵循“检索→拼接上下文→生成答案”的流程。但在应对真实世界的复杂问题时,这一范式很快面临瓶颈:

  • 问题开放性:任务往往是开放式的,没有明确求解步骤。
  • 证据分散性:证据散落在多个来源,质量参差不齐。
  • 推理复杂性:需要多轮、可回溯的推理过程。
  • 输出结构化:最终产出不是简单答案,而是一份完整、结构化的报告。
  • 结论生成性:答案并非对已知知识的简单复述,而是需要通过反复验证与探索逐步形成。

在此背景下,一类旨在执行完整研究流程而非仅仅“回答问题”的新系统开始涌现,这一新范式逐渐被称为 Deep Research(深度研究)

什么是 Deep Research?

简而言之,Deep Research 并非“更强版的RAG”,而是试图让大模型像研究员一样工作

  • 主动拆解复杂问题。
  • 自主规划搜索与探索路径。
  • 与搜索引擎、工具、代码执行器等外部系统交互。
  • 管理长期记忆与中间结论。
  • 最终生成结构化、可验证的长篇研究结论。

然而,现有工作中“Deep Research”的定义仍较宽泛,与RAG、Agentic Search等概念边界模糊。针对此,综述论文给出了更明确的定义,并总结了其三个发展阶段

Deep Research 的定义

Deep Research 是一种端到端的研究型智能体范式,它通过规划、检索、记忆与综合推理,完成复杂、开放式任务,并输出可核查的研究级结果。

三个阶段:看清 Deep Research 的能力边界

为避免概念泛化,作者将 Deep Research 划分为三个递进阶段:

  • 🟢 Phase I: Agentic Search (智能搜索):定位为“会思考的搜索引擎”。核心目标是找对信息,强调多步查询与动态检索,输出通常是带引用的短答案。
  • 🟡 Phase II: Integrated Research (综合研究):开始具备“研究助理”形态。核心目标是整合多源证据并生成系统性报告,通过多轮检索与证据冲突处理,输出结构化的长文分析。
  • 🔴 Phase III: Full-stack AI Scientist (全栈AI科学家):被视为Deep Research的终极形态,也最具争议。目标是提出观点并验证假设,系统能执行实验、撰写论文甚至参与评审,输出具备一定“原创性”的研究成果。

Deep Research发展阶段

Deep Research 系统的四大核心组件

无论具体实现如何,一个Deep Research系统通常包含四个关键模块:

  1. 查询规划:如何将模糊复杂的问题拆解为可执行的子任务?综述总结了并行、顺序及树状(搜索式)规划等策略。
  2. 信息获取:决定何时检索、检索什么、从哪里检索。涵盖文本、表格、图表等多模态信息,以及自适应检索触发机制。
  3. 记忆管理:在长周期、多轮推理中,信息如何存储与遗忘?涉及记忆压缩、索引设计及更新遗忘机制。
  4. 答案生成:如何将碎片证据组织为连贯、可核查的最终结论?关键挑战包括证据整合、叙事结构设计及引用一致性控制。

Deep Research核心组件

Deep Research 中的训练范式

除了系统设计,如何训练Deep Research系统也是核心问题。主流方法大致分三类:

  • Prompt Engineering(如Anthropic的Deep Research系统)
  • 监督微调(SFT)
  • 强化学习(RL)

前两类已在工业界广泛应用,而综述重点关注了近年来迅速升温的强化学习范式。

强化学习:为何成为关键路径?

与传统生成任务不同,Deep Research特点鲜明:

  • 任务链路长,包含多个决策步骤。
  • 中间过程难以直接监督。
  • 最终目标开放且反馈延迟。

这些特性使单纯依赖提示工程或监督微调难以覆盖复杂流程,而强化学习天然适合处理长程决策与策略优化问题

两类主流的 RL 训练范式

现有方法主要归纳为两种路径:

  1. 端到端强化学习:将整个系统视为一个整体策略,从问题输入到输出完整结果,根据整体表现获得奖励。优势是目标一致,但面临搜索空间大、训练不稳定、信用分配困难等挑战。
  2. 组件级强化学习:对系统中关键组件(如查询规划、检索触发、工具调用、记忆管理)单独进行强化学习优化。这种方式降低了训练难度,易于集成,但需权衡局部最优与全局协同。

这两类范式分别代表了 “全局最优” 与 “模块可控” 的不同取舍。

为什么 Deep Research 比 RAG 更难?

因为它系统性地暴露了三个长期被忽视的问题:

  1. 何时停止?:开放式研究任务往往没有明确的“完成信号”。
  2. 如何评估?:面对长篇报告或分析性结论,简单的准确率指标已不再适用。
  3. 如何训练?:多模块、长链路的系统结构使得信用分配极其困难。

正因如此,Deep Research 正在成为大模型、搜索、强化学习与多智能体研究的交汇点

结语:一个亟待探索的方向

这篇综述并未试图给出“终极解决方案”。一个更重要的问题是:当AI开始“做研究”,我们应如何定义、构建和评估这样的系统?

Deep Research 不是一个具体模型或单一产品,而是一条仍在快速演化的研究路线。它的边界、能力与风险,有待整个社区共同探索。

Deep Research总结




上一篇:Windows 10/11任务栏美化指南:TranslucentTB透明与模糊效果设置教程
下一篇:Milvus对象存储方案实战:MinIO替代选择与RustFS性能评测
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-8 04:11 , Processed in 0.304490 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表