云栈社区»论坛 › 技术文档「 Note & Doc 」 › Gen-Searcher技术解析：基于AgenticRAG的图像生成优化与工程化实 ...

发回帖发新帖

4333 积分	0 好友	569 主题

发消息

Gen-Searcher技术解析：基于AgenticRAG的图像生成优化与工程化实践

发表于 2026-4-2 10:35:42 | 查看: 193| 回复: 0

图像生成领域正迎来新思路：将 AgenticRAG 框架应用于文生图任务。本文深入解析一种名为 Gen-Searcher 的智能体工程化组合方案，其核心流程可概括为：用户提示→Gen-Searcher智能体多轮搜索→输出“精准提示+参考图”→送给文生图模型生成。

新旧图像生成范式对比图

简单来说，这是一种用于图像生成的多模态深度搜索智能体。它通过多跳推理与主动搜索，来获取生成所需的确切文本知识及视觉参考图像。虽然这类方法能有效提升生成结果的事实准确性，但也引入了新的挑战：依赖外部搜索可能带来信息噪声或幻觉，且多轮的工具调用与网页浏览会显著增加耗时，生成单张图片可能需要数秒到十几秒。

尽管如此，其工程化实现思路仍值得探讨。相关研究《Gen-Searcher: Reinforcing Agentic Search for Image Generation》的论文、模型权重及代码均已公开。

核心工具集

Gen-Searcher 智能体主要依赖三类工具与环境交互：

search：执行网络文本搜索，返回前k个相关网页的链接与摘要。主要用于验证事实性信息，如实体名称、日期、地点等。
image_search：根据文本查询检索相关图像，返回图像链接与描述。用于确定物体、地标、服装等细粒度外观细节。
browse：输入一个网页链接，返回由 Qwen3-VL-30B-A3B-Instruct 生成的页面内容摘要。

两阶段训练策略

模型基于 Qwen3-VL-8B-Instruct 初始化，并经历两个训练阶段：

SFT监督微调阶段：在名为 Gen-Searcher-SFT-10k 的数据集上进行微调，教导模型执行多轮工具调用，包括发起搜索、解析文本与视觉反馈、筛选有用参考图像，并最终合成基于搜索的精准提示。
AgenticRL强化学习阶段：使用 GRPO 算法优化智能体的搜索轨迹。为了解决单一奖励信号的不足，采用了双奖励机制：
- R_text文本奖励：由 GPT-4.1 评估生成信息的完整性，打分范围为 {0, 0.25, 0.5, 0.75, 1.0}。
- R_image图像奖励：使用 K-Score 进行多维度加权评分（忠实度0.1 + 视觉正确性0.4 + 文本准确性0.4 + 美学0.1）。
最终奖励计算公式为 R = (1 - α) * R_image + α * R_text，其中 α = 0.5。

数据合成Pipeline

高质量的训练数据是该方法生效的基础，其构建包含四个关键步骤：文本提示构造、智能体轨迹生成、有根据的图像合成以及数据过滤与整理。

Gen-Searcher四阶段数据合成与训练流程图

Step 1: 文本提示构造
目标是自动生成那些“需要进行深度搜索才能回答”的提示。通过精心设计的提示工程，指导 Gemini 3 Pro 在动漫、建筑、艺术、地理、历史、医学等约20个广泛类别中，生成多跳、搜索密集型的提示。这些提示的特点是所需信息无法通过单次搜索获得，必须进行多步骤的证据聚合与分析。
Step 2: Agent轨迹合成
智能体利用前述的 search、image_search 和 browse 工具，开展多轮推理与搜索。它持续分析来自环境的文本和视觉反馈，识别有用证据和参考图像，并规划下一步动作。最终，聚合多方信息，生成一个有根据的提示和一组相关的参考图像。
Step 3: 图像生成
在获得最终的有根据提示和视觉参考后，使用专有的图像生成模型 NanoBananaPro 合成对应的图像，初步得到约3万张原始样本。
Step 4: 数据过滤
使用 Seed 1.8 从多个维度对生成的样本进行评分，包括搜索必要性、内容正确性、提示一致性、视觉美感、文本清晰度及安全性。同时结合基于规则的过滤，例如移除 Token 过长或搜索结果不一致的提示。经过层层筛选，最终获得约1.7万个高质量、人工验证的样本，构成后续的训练集（如 Gen-Teacher-SFT-10K, Gen-Teacher-RL-6k）。

小结

Gen-Searcher 的核心价值在于其系统化的数据合成流程与严谨的智能体流程编排。它将 AgenticRAG 的思想创造性地应用于图像生成，通过强化学习优化搜索策略，旨在解决生成内容的事实性、准确性问题。这为追求高精度、可解释的图像生成提供了值得借鉴的工程化思路。对这类结合搜索与生成的智能体应用感兴趣的朋友，可以在云栈社区的人工智能板块找到更多相关的讨论与开源实战项目分析。

参考文献

Gen-Searcher: Reinforcing Agentic Search for Image Generation, https://arxiv.org/pdf/2603.28767

上一篇：OpenAI完成1220亿美元融资，投后估值达8520亿美元，加速AI超级应用布局
下一篇：2026春招进行时：字节、美团等大厂大数据开发岗位已开放，抓紧投递

图像生成, 多模态搜索, 强化学习, 智能体, RAG