找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4051

积分

0

好友

592

主题
发表于 3 小时前 | 查看: 5| 回复: 0

“2018 到 2023 年间在 EMNLP 会议上发表的那篇论文中,第一作者本科就读于达特茅斯学院、第四作者本科就读于宾夕法尼亚大学的那篇科学论文,题目是什么?”

这并不是一道靠记忆就能解答的题。一个真正的深度搜索Agent必须在多轮环境交互中,不断假设、验证并修正路径,始终保持推理一致性,才能将零散证据整合成自洽链条。

2025年被视为 AI Agent 元年,但真正的自主智能体其核心能力在于「深度搜索」——在长程任务中像人类专家一样维持目标、验证信息并动态调整策略。然而,训练这样的智能体普遍面临三大瓶颈:

  1. 数据稀缺:高难度长程问答任务极度依赖人工标注,成本高昂。因此,我们需要一条能够自动化合成高难度问题的链路。
  2. 能力鸿沟:预训练模型虽知识储备丰富,却缺乏与真实环境进行长程交互的能力。这需要通过低成本的中训练(Mid-Training)阶段来弥补鸿沟。
  3. 环境缺失:在真实环境中训练成本高且不可控。一个功能等价的模拟环境,可以在本地复现搜索过程,从而支持算法的快速迭代。

为突破这些瓶颈,REDSearcher 团队设计了一套低成本、可扩展的训练框架。最终,他们仅使用 30B 参数规格的模型,就在深度搜索任务上取得了开源模型的 SoTA(State-of-the-Art)性能,并且超越了包括 GPT-5 在内的众多闭源模型。

项目资源

REDSearcher与主流模型在多个基准测试上的性能对比柱状图

01 什么是「足够难」的深度搜索题目?

什么是困难的搜索题目?很多人会关注推理跳数,但这往往只是表象。我们应该追求的是问题的结构性困难

1. 拓扑复杂度:用树宽衡量「结构性困难」

在复杂任务中,信息分叉交织,甚至形成回环。智能体需要同时记忆多路推论,时刻验证其一致性,并随时准备进行整体回溯——这才是深度搜索的核心挑战。为此,团队引入了图论中的 TreeWidth(树宽) 概念来刻画这种「结构性困难」。

三种不同树宽(TreeWidth)结构的问题示例图示

  1. 线性/树状(树宽=1):典型链式推理,只需按部就班检索便可解答。
  2. 菱形/回环(树宽=2):出现分叉与重汇合,要求智能体维持多路假设的一致性,并在发现矛盾时进行回溯。
  3. 强耦合子图(树宽≥3):形成网状约束,需要将零散证据拼合成一致的整体,迫使模型进行全局验证和回溯。

2. 信息分散度:杜绝搜索「捷径」

即使问题的拓扑结构很复杂,如果恰好存在一个网页包含了所有关键事实,模型一次检索就能“抄走”答案。为此,团队引入了「信息分散度」的概念,即覆盖全部关键证据所需的最小来源数。信息分散度越大,表明问题相关的证据片段在互联网上的分布就越零散,这迫使智能体与外部环境进行更多轮次的交互,从而获取更充分的信息。

02 大规模[自动化]合成[高难度]的深度搜索问题

基于上述双重约束(树宽与信息分散度)的复杂度标准,团队采用 graph-to-text 流程来自动合成数据:先生成符合指定树宽与分散度的推理图,再将其“翻译”为自然语言问题,并经过多层校验以确保其「高难度、可解且答案唯一」。

同时,团队设计了基于「结构化信息」(如维基百科)与「网络浏览」的两套图构造流程,以覆盖不同的搜索环境背景。

QA生成与验证全流程示意图

在合成问题中,团队采用了两种关键策略:

  1. 拓扑结构增强:直接生成高树宽图的成功率较低。为此,他们引入大模型智能体对初始依赖图进行「拓扑加密」,通过添加环状与交错约束,显著提升结构复杂度,从而迭代地提高问题难度。
  2. 工具增强的问题合成:在问题构造阶段,主动植入工具调用需求。通过将关键实体替换为隐含工具依赖的表达(如将具体地名替换为需要地图服务查询的描述,或将论文引用替换为需要谷歌学术搜索的表达),使得工具调用成为解题的前置条件。

03 多模态扩展:从[文本图]到[多模态图]

在纯文本合成数据的基础上,REDSearcher 通过模态注入,将纯文本推理图转化为跨模态推理图,使部分约束锚定在图像中。

多模态扩展:从文本图到多模态图

  1. 视觉属性锚定:用图像描述替换节点的文本属性,迫使模型必须先识别图像内容,再将其与知识库关联。
  2. 跨模态依赖:设置视觉不可替代的约束,使得图像搜索成为推理的必经之路,而非冗余信息。
  3. 视觉语义抽象:使用抽象指代(如“图中所示的设备”)替代直接命名(如“iPhone 15”),迫使模型必须识别图像内容后才能进行有效搜索。
  4. 模态灵活插入:视觉证据可被插入推理链的任意位置,既可在早期设置瓶颈以增加难度,也可在后期引入以进行验证,实现难度的精细控制。

通过这套轻量级的扩展方法,REDSearcher 能够高效地将能力迁移至多模态搜索领域,合成高质量的图文深度搜索问题。

04 [成本可控]Mid-Training 强化智能体能力

预训练模型虽然知识渊博,但普遍缺乏多轮交互的训练,在长程搜索任务中容易出现目标漂移、重复搜索等问题。为此,REDSearcher 采用了一个可扩展的两阶段 Mid-Training 框架,依次强化模型的「原子能力」与「组合能力」,实现从语言模型到智能体的平稳过渡。

Mid-Training 两阶段训练流程示意图

原子能力建设

针对深度搜索至关重要的两个基础能力进行优化:

  • 意图锚定:训练模型从含噪的观测信息中精准抓取关键证据,过滤噪声,减少幻觉与推理漂移。
  • 层次化规划:教导模型将复杂的顶层目标,拆解为可立即求解的具体子目标与需要逐步消解的不确定目标,确保每一步规划都可落地执行。

组合能力建设

通过模拟环境交互,强化模型在长程任务中的状态维持与目标一致性,全程以计算成本为约束:

  • 工具调用能力:通过合成工具协议并在本地模拟环境中进行交互,使模型在 ReACT(Reasoning and Acting)范式下掌握与外界环境交互的基础能力。
  • 长程交互能力:在「功能一致」的模拟搜索环境中,让智能体进行长程的、多轮次的交互,从而强化其复杂规划能力与维持目标一致性的能力。

05 后训练持续进化:不只是[搜得多]更要[搜得准]

后训练阶段采取 SFT(监督微调) + Agentic RL(智能体强化学习) 的双阶段策略进行能力增强。

后训练持续进化

  1. 首先,在真实搜索环境中交互,通过多重过滤机制获取长程、高质量的行为轨迹,用以教会模型如何进行深度搜索。
  2. 接着,在真实搜索环境中进一步通过强化学习优化策略。此阶段有两个关键设计:
    • 低成本验证:构建一个「功能等价」的本地模拟环境,保持与真实API的一致性,且证据完备并包含噪声,从而大幅加速实验迭代速度。
    • 数据质量保障:针对合成数据集中可能存在的答案错误、一题多解等现象,采用“智能体作为验证器(Agent-as-Verifier)”的方法,对用于强化学习的问题集进行严格校验,避免低质数据污染影响训练的稳定性。

一个有趣的发现是,团队观察到了 效率与性能同步提升 的现象。随着训练的进行,模型完成任务的平均交互轮次不断下降,但任务准确率却在持续提升。这表明 REDSearcher 并非简单地学会了“暴力搜索”,而是掌握了更精准的信息获取策略,主动减少了无效调用,形成了一个“越训练越聪明”的良性循环。

06 实验结果

在多项深度搜索的权威基准测试上,REDSearcher 均取得了优异的表现。

不同模型在多个基准测试上的性能对比表格

  1. 文本深度搜索:REDSearcher(30B)在同规模开源模型中达到了 SoTA 水平。更值得注意的是,其性能(带*号为启用上下文管理的性能)超过了 GPT-5-Thinking-high、Gemini-2.5-pro、Claude-4.5-sonnet 等一众先进的闭源模型。
  2. 具体而言,在 BrowseComp、GAIA 等深度搜索榜单上,REDSearcher 的表现均优于上述闭源模型。
  3. 多模态深度搜索:REDSearcher-MM 在多模态搜索基准中,相比同参数规格的模型取得了 SoTA 水平,并且性能超过了 Gemini-2.5-pro,在部分基准上达到了接近 Gemini-3-pro 的性能。
  4. 详细来说,REDSearcher-MM 在五个多模态搜索基准上的性能均超过 Gemini-2.5-pro,展现出强大的多模态推理与搜索能力。

多模态模型在多个基准测试上的性能对比表格

结语

结语

REDSearcher 工作的核心价值在于其系统性设计:从图论角度严谨定义深度搜索任务的复杂度;以双重约束标准实现可扩展的高质量数据合成;通过两阶段中间训练有效降低能力迁移的成本;最后利用高质量轨迹合成结合强化学习实现持续迭代进化。

它为我们提供了一条清晰、可复现且低成本的深度搜索智能体训练路径,推动 AI 系统从静态的知识查询,迈向在开放环境下进行自主探索、验证与信息整合的新阶段。对这类前沿AI技术实践感兴趣的开发者,欢迎在云栈社区交流探讨。

团队介绍

团队介绍

本工作主要作者来源于小红书基础模型后训练组,其中初征是哈工大刘铭和秦兵教授的在读博士生,王枭和 Jack Hong 就职于小红书 Hi Lab。

团队致力于通过先进的后训练技术,提升模型的多元智能水平,让 AI 能够解决真实世界、真实生活中的复杂问题。团队在 Reasoning / Agent / Self-Evolving / Lifelong Learning 等方向持续推进技术边界,探索不同的后训练技术范式,旨在确保训练出的 AI 有用、可信赖、以人类为中心。

END




上一篇:Python四舍五入全解析:从精度陷阱到decimal模块的终极方案
下一篇:小红书FireRed-Image-Edit v1.1 正式开源:OOTD元素融合与人像一致性编辑能力大幅提升
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-17 03:49 , Processed in 0.845857 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表