过去一年,大语言模型的能力边界持续被拓展:从代码生成、数学解题到工具调用,甚至已能实现“自动搜索”。然而,一个愈发尖锐的问题也随之浮现:当任务没有标准答案,当所需信息分散在网页、论文、图表之间,当我们需要一份“可核查、可复用的完整结论”时,大模型真的已经掌握“做研究”这项技能了吗?
近期,腾讯混元数字人团队联合清华大学、卡内基梅隆大学等13家机构,发布了首个系统性梳理Deep Research方向的综述论文。该工作整理并分析了500余篇相关研究,全面回顾了AI智能体在开放式任务场景下的发展脉络与关键挑战。
论文与资源
从 RAG 到 Deep Research
传统的RAG(检索增强生成) 已成为工业界标准,遵循“检索→拼接上下文→生成答案”的流程。但在应对真实世界的复杂问题时,这一范式很快面临瓶颈:
- 问题开放性:任务往往是开放式的,没有明确求解步骤。
- 证据分散性:证据散落在多个来源,质量参差不齐。
- 推理复杂性:需要多轮、可回溯的推理过程。
- 输出结构化:最终产出不是简单答案,而是一份完整、结构化的报告。
- 结论生成性:答案并非对已知知识的简单复述,而是需要通过反复验证与探索逐步形成。
在此背景下,一类旨在执行完整研究流程而非仅仅“回答问题”的新系统开始涌现,这一新范式逐渐被称为 Deep Research(深度研究)。
什么是 Deep Research?
简而言之,Deep Research 并非“更强版的RAG”,而是试图让大模型像研究员一样工作:
- 主动拆解复杂问题。
- 自主规划搜索与探索路径。
- 与搜索引擎、工具、代码执行器等外部系统交互。
- 管理长期记忆与中间结论。
- 最终生成结构化、可验证的长篇研究结论。
然而,现有工作中“Deep Research”的定义仍较宽泛,与RAG、Agentic Search等概念边界模糊。针对此,综述论文给出了更明确的定义,并总结了其三个发展阶段。
Deep Research 的定义
Deep Research 是一种端到端的研究型智能体范式,它通过规划、检索、记忆与综合推理,完成复杂、开放式任务,并输出可核查的研究级结果。
三个阶段:看清 Deep Research 的能力边界
为避免概念泛化,作者将 Deep Research 划分为三个递进阶段:
- 🟢 Phase I: Agentic Search (智能搜索):定位为“会思考的搜索引擎”。核心目标是找对信息,强调多步查询与动态检索,输出通常是带引用的短答案。
- 🟡 Phase II: Integrated Research (综合研究):开始具备“研究助理”形态。核心目标是整合多源证据并生成系统性报告,通过多轮检索与证据冲突处理,输出结构化的长文分析。
- 🔴 Phase III: Full-stack AI Scientist (全栈AI科学家):被视为Deep Research的终极形态,也最具争议。目标是提出观点并验证假设,系统能执行实验、撰写论文甚至参与评审,输出具备一定“原创性”的研究成果。

Deep Research 系统的四大核心组件
无论具体实现如何,一个Deep Research系统通常包含四个关键模块:
- 查询规划:如何将模糊复杂的问题拆解为可执行的子任务?综述总结了并行、顺序及树状(搜索式)规划等策略。
- 信息获取:决定何时检索、检索什么、从哪里检索。涵盖文本、表格、图表等多模态信息,以及自适应检索触发机制。
- 记忆管理:在长周期、多轮推理中,信息如何存储与遗忘?涉及记忆压缩、索引设计及更新遗忘机制。
- 答案生成:如何将碎片证据组织为连贯、可核查的最终结论?关键挑战包括证据整合、叙事结构设计及引用一致性控制。

Deep Research 中的训练范式
除了系统设计,如何训练Deep Research系统也是核心问题。主流方法大致分三类:
- Prompt Engineering(如Anthropic的Deep Research系统)
- 监督微调(SFT)
- 强化学习(RL)
前两类已在工业界广泛应用,而综述重点关注了近年来迅速升温的强化学习范式。
强化学习:为何成为关键路径?
与传统生成任务不同,Deep Research特点鲜明:
- 任务链路长,包含多个决策步骤。
- 中间过程难以直接监督。
- 最终目标开放且反馈延迟。
这些特性使单纯依赖提示工程或监督微调难以覆盖复杂流程,而强化学习天然适合处理长程决策与策略优化问题。
两类主流的 RL 训练范式
现有方法主要归纳为两种路径:
- 端到端强化学习:将整个系统视为一个整体策略,从问题输入到输出完整结果,根据整体表现获得奖励。优势是目标一致,但面临搜索空间大、训练不稳定、信用分配困难等挑战。
- 组件级强化学习:对系统中关键组件(如查询规划、检索触发、工具调用、记忆管理)单独进行强化学习优化。这种方式降低了训练难度,易于集成,但需权衡局部最优与全局协同。
这两类范式分别代表了 “全局最优” 与 “模块可控” 的不同取舍。
为什么 Deep Research 比 RAG 更难?
因为它系统性地暴露了三个长期被忽视的问题:
- 何时停止?:开放式研究任务往往没有明确的“完成信号”。
- 如何评估?:面对长篇报告或分析性结论,简单的准确率指标已不再适用。
- 如何训练?:多模块、长链路的系统结构使得信用分配极其困难。
正因如此,Deep Research 正在成为大模型、搜索、强化学习与多智能体研究的交汇点。
结语:一个亟待探索的方向
这篇综述并未试图给出“终极解决方案”。一个更重要的问题是:当AI开始“做研究”,我们应如何定义、构建和评估这样的系统?
Deep Research 不是一个具体模型或单一产品,而是一条仍在快速演化的研究路线。它的边界、能力与风险,有待整个社区共同探索。

|