找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2924

积分

0

好友

390

主题
发表于 5 天前 | 查看: 40| 回复: 0

图像生成领域正迎来新思路:将 AgenticRAG 框架应用于文生图任务。本文深入解析一种名为 Gen-Searcher 的智能体工程化组合方案,其核心流程可概括为:用户提示→Gen-Searcher智能体多轮搜索→输出“精准提示+参考图”→送给文生图模型生成

新旧图像生成范式对比图

简单来说,这是一种用于图像生成的多模态深度搜索智能体。它通过多跳推理与主动搜索,来获取生成所需的确切文本知识及视觉参考图像。虽然这类方法能有效提升生成结果的事实准确性,但也引入了新的挑战:依赖外部搜索可能带来信息噪声或幻觉,且多轮的工具调用与网页浏览会显著增加耗时,生成单张图片可能需要数秒到十几秒。

尽管如此,其工程化实现思路仍值得探讨。相关研究《Gen-Searcher: Reinforcing Agentic Search for Image Generation》的论文、模型权重及代码均已公开。

核心工具集

Gen-Searcher 智能体主要依赖三类工具与环境交互:

  • search:执行网络文本搜索,返回前k个相关网页的链接与摘要。主要用于验证事实性信息,如实体名称、日期、地点等。
  • image_search:根据文本查询检索相关图像,返回图像链接与描述。用于确定物体、地标、服装等细粒度外观细节。
  • browse:输入一个网页链接,返回由 Qwen3-VL-30B-A3B-Instruct 生成的页面内容摘要。

两阶段训练策略

模型基于 Qwen3-VL-8B-Instruct 初始化,并经历两个训练阶段:

  1. SFT监督微调阶段:在名为 Gen-Searcher-SFT-10k 的数据集上进行微调,教导模型执行多轮工具调用,包括发起搜索、解析文本与视觉反馈、筛选有用参考图像,并最终合成基于搜索的精准提示。
  2. AgenticRL强化学习阶段:使用 GRPO 算法优化智能体的搜索轨迹。为了解决单一奖励信号的不足,采用了双奖励机制

    • R_text文本奖励:由 GPT-4.1 评估生成信息的完整性,打分范围为 {0, 0.25, 0.5, 0.75, 1.0}。
    • R_image图像奖励:使用 K-Score 进行多维度加权评分(忠实度0.1 + 视觉正确性0.4 + 文本准确性0.4 + 美学0.1)。

    最终奖励计算公式为 R = (1 - α) * R_image + α * R_text,其中 α = 0.5

数据合成Pipeline

高质量的训练数据是该方法生效的基础,其构建包含四个关键步骤:文本提示构造、智能体轨迹生成、有根据的图像合成以及数据过滤与整理

Gen-Searcher四阶段数据合成与训练流程图

  • Step 1: 文本提示构造
    目标是自动生成那些“需要进行深度搜索才能回答”的提示。通过精心设计的提示工程,指导 Gemini 3 Pro 在动漫、建筑、艺术、地理、历史、医学等约20个广泛类别中,生成多跳、搜索密集型的提示。这些提示的特点是所需信息无法通过单次搜索获得,必须进行多步骤的证据聚合与分析。

  • Step 2: Agent轨迹合成
    智能体利用前述的 searchimage_searchbrowse 工具,开展多轮推理与搜索。它持续分析来自环境的文本和视觉反馈,识别有用证据和参考图像,并规划下一步动作。最终,聚合多方信息,生成一个有根据的提示和一组相关的参考图像

    Gen-Searcher多轮搜索推理过程示意图

  • Step 3: 图像生成
    在获得最终的有根据提示和视觉参考后,使用专有的图像生成模型 NanoBananaPro 合成对应的图像,初步得到约3万张原始样本。

  • Step 4: 数据过滤
    使用 Seed 1.8 从多个维度对生成的样本进行评分,包括搜索必要性、内容正确性、提示一致性、视觉美感、文本清晰度及安全性。同时结合基于规则的过滤,例如移除 Token 过长或搜索结果不一致的提示。经过层层筛选,最终获得约1.7万个高质量、人工验证的样本,构成后续的训练集(如 Gen-Teacher-SFT-10K, Gen-Teacher-RL-6k)。

小结

Gen-Searcher 的核心价值在于其系统化的数据合成流程严谨的智能体流程编排。它将 AgenticRAG 的思想创造性地应用于图像生成,通过强化学习优化搜索策略,旨在解决生成内容的事实性、准确性问题。这为追求高精度、可解释的图像生成提供了值得借鉴的工程化思路。对这类结合搜索与生成的智能体应用感兴趣的朋友,可以在 云栈社区人工智能板块找到更多相关的讨论与开源实战项目分析。

参考文献

  1. Gen-Searcher: Reinforcing Agentic Search for Image Generation, https://arxiv.org/pdf/2603.28767



上一篇:OpenAI完成1220亿美元融资,投后估值达8520亿美元,加速AI超级应用布局
下一篇:2026春招进行时:字节、美团等大厂大数据开发岗位已开放,抓紧投递
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-7 20:04 , Processed in 1.107339 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表