2933 积分	0 好友	402 主题

发消息

Deep Research深度研究综述：从智能搜索到全栈AI科学家的演进

发表于 2025-12-24 11:54:08 | 查看: 67| 回复: 0

过去一年，大语言模型的能力边界持续被拓展：从代码生成、数学解题到工具调用，甚至已能实现“自动搜索”。然而，一个愈发尖锐的问题也随之浮现：当任务没有标准答案，当所需信息分散在网页、论文、图表之间，当我们需要一份“可核查、可复用的完整结论”时，大模型真的已经掌握“做研究”这项技能了吗？

近期，腾讯混元数字人团队联合清华大学、卡内基梅隆大学等13家机构，发布了首个系统性梳理Deep Research方向的综述论文。该工作整理并分析了500余篇相关研究，全面回顾了AI智能体在开放式任务场景下的发展脉络与关键挑战。

论文与资源

论文地址（arXiv）：https://arxiv.org/abs/2512.02038
代码仓库：https://github.com/mangopy/Deep-Research-Survey
项目网页：https://deep-research-survey.github.io/

从 RAG 到 Deep Research

传统的RAG（检索增强生成） 已成为工业界标准，遵循“检索→拼接上下文→生成答案”的流程。但在应对真实世界的复杂问题时，这一范式很快面临瓶颈：

问题开放性：任务往往是开放式的，没有明确求解步骤。
证据分散性：证据散落在多个来源，质量参差不齐。
推理复杂性：需要多轮、可回溯的推理过程。
输出结构化：最终产出不是简单答案，而是一份完整、结构化的报告。
结论生成性：答案并非对已知知识的简单复述，而是需要通过反复验证与探索逐步形成。

在此背景下，一类旨在执行完整研究流程而非仅仅“回答问题”的新系统开始涌现，这一新范式逐渐被称为 Deep Research（深度研究）。

什么是 Deep Research？

简而言之，Deep Research 并非“更强版的RAG”，而是试图让大模型像研究员一样工作：

主动拆解复杂问题。
自主规划搜索与探索路径。
与搜索引擎、工具、代码执行器等外部系统交互。
管理长期记忆与中间结论。
最终生成结构化、可验证的长篇研究结论。

然而，现有工作中“Deep Research”的定义仍较宽泛，与RAG、Agentic Search等概念边界模糊。针对此，综述论文给出了更明确的定义，并总结了其三个发展阶段。

Deep Research 的定义

Deep Research 是一种端到端的研究型智能体范式，它通过规划、检索、记忆与综合推理，完成复杂、开放式任务，并输出可核查的研究级结果。

三个阶段：看清 Deep Research 的能力边界

为避免概念泛化，作者将 Deep Research 划分为三个递进阶段：

🟢 Phase I: Agentic Search (智能搜索)：定位为“会思考的搜索引擎”。核心目标是找对信息，强调多步查询与动态检索，输出通常是带引用的短答案。
🟡 Phase II: Integrated Research (综合研究)：开始具备“研究助理”形态。核心目标是整合多源证据并生成系统性报告，通过多轮检索与证据冲突处理，输出结构化的长文分析。
🔴 Phase III: Full-stack AI Scientist (全栈AI科学家)：被视为Deep Research的终极形态，也最具争议。目标是提出观点并验证假设，系统能执行实验、撰写论文甚至参与评审，输出具备一定“原创性”的研究成果。

Deep Research发展阶段

Deep Research 系统的四大核心组件

无论具体实现如何，一个Deep Research系统通常包含四个关键模块：

查询规划：如何将模糊复杂的问题拆解为可执行的子任务？综述总结了并行、顺序及树状（搜索式）规划等策略。
信息获取：决定何时检索、检索什么、从哪里检索。涵盖文本、表格、图表等多模态信息，以及自适应检索触发机制。
记忆管理：在长周期、多轮推理中，信息如何存储与遗忘？涉及记忆压缩、索引设计及更新遗忘机制。
答案生成：如何将碎片证据组织为连贯、可核查的最终结论？关键挑战包括证据整合、叙事结构设计及引用一致性控制。

Deep Research核心组件

Deep Research 中的训练范式

除了系统设计，如何训练Deep Research系统也是核心问题。主流方法大致分三类：

Prompt Engineering（如Anthropic的Deep Research系统）
监督微调（SFT）
强化学习（RL）

前两类已在工业界广泛应用，而综述重点关注了近年来迅速升温的强化学习范式。

强化学习：为何成为关键路径？

与传统生成任务不同，Deep Research特点鲜明：

任务链路长，包含多个决策步骤。
中间过程难以直接监督。
最终目标开放且反馈延迟。

这些特性使单纯依赖提示工程或监督微调难以覆盖复杂流程，而强化学习天然适合处理长程决策与策略优化问题。

两类主流的 RL 训练范式

现有方法主要归纳为两种路径：

端到端强化学习：将整个系统视为一个整体策略，从问题输入到输出完整结果，根据整体表现获得奖励。优势是目标一致，但面临搜索空间大、训练不稳定、信用分配困难等挑战。
组件级强化学习：对系统中关键组件（如查询规划、检索触发、工具调用、记忆管理）单独进行强化学习优化。这种方式降低了训练难度，易于集成，但需权衡局部最优与全局协同。

这两类范式分别代表了 “全局最优” 与 “模块可控” 的不同取舍。

为什么 Deep Research 比 RAG 更难？

因为它系统性地暴露了三个长期被忽视的问题：

何时停止？：开放式研究任务往往没有明确的“完成信号”。
如何评估？：面对长篇报告或分析性结论，简单的准确率指标已不再适用。
如何训练？：多模块、长链路的系统结构使得信用分配极其困难。

正因如此，Deep Research 正在成为大模型、搜索、强化学习与多智能体研究的交汇点。

结语：一个亟待探索的方向

这篇综述并未试图给出“终极解决方案”。一个更重要的问题是：当AI开始“做研究”，我们应如何定义、构建和评估这样的系统？

Deep Research 不是一个具体模型或单一产品，而是一条仍在快速演化的研究路线。它的边界、能力与风险，有待整个社区共同探索。

Deep Research总结

上一篇：Windows 10/11任务栏美化指南：TranslucentTB透明与模糊效果设置教程
下一篇：Milvus对象存储方案实战：MinIO替代选择与RustFS性能评测

深度研究, LLM, 智能体, 强化学习, RAG