云栈社区»论坛 › 开源实战「 OpenSource 」 › CVPR 2026 | 浙大腾讯发布UnicEdit-10M：千万级图像编辑数据集与 ...

发回帖发新帖

3388 积分	0 好友	450 主题

发消息

[Python] CVPR 2026 | 浙大腾讯发布UnicEdit-10M：千万级图像编辑数据集与统一验证框架，助推开源模型追赶SOTA

发表于 2026-3-21 02:18:17 | 查看: 102| 回复: 0

你是否有过这样的体验：用 ChatGPT 内置的图像编辑功能得心应手，但切换到几个开源工具时，效果却时常不尽如人意，甚至频频“翻车”？这并非错觉。当前，顶尖的闭源模型（例如 GPT-Image-1）与开源模型在图像编辑能力上的差距，正在被持续拉大。

究其根源，开源阵营往往缺乏两样关键资产：一是数量庞大且质量优异的训练数据，二是一套能够全面、准确“体检”模型能力的“诊断系统”。

数据生产的挑战在于，它如同走钢丝。纯手工打造的数据集固然质量上乘，但规模难以满足大模型训练的需求；而全自动流水线虽然能量产，却容易在多个环节累积误差——例如，第一步对物体的识别出现偏差，后续所有的编辑指令都会沿着错误的方向发展。

具体而言，现有的图像编辑数据生产方式存在三个主要短板：

误差链式传播：一个完整的编辑任务往往需要经过多个工具（如识别 → 分割 → 生成 → 融合），如同“传话游戏”，前一环节的微小偏差会被后续环节放大。
质检标准单一：要么只检查“是否生成了图像”而不深究其是否遵循了文本指令，要么投入高昂成本调用 API 来优化文本描述，却忽略了图像本身的视觉质量。
评估范围狭窄：现有的评测基准大多局限于“改变颜色”、“添加物体”等基础操作，缺乏对“从空中俯瞰这座建筑”这类空间理解任务，或是“将咖啡壶变为煮沸状态”这类需要常识推理的任务的考察。此外，评分标准本身也存在缺陷——例如，模型悄悄改变了非目标区域（背景）可能不会被察觉，而合理的风格化变化却可能被错误扣分。

UnicEdit-10M数据集覆盖的编辑任务分类与后验证流程
图1：UnicEdit-10M 数据集覆盖了跨越基础与复杂编辑的 22 种任务类型。该数据集采用统一的后验证流程，通过过滤失败样本并精炼指令来产出高质量数据。同时，研究团队还推出了配套的评测基准 UnicBench。

针对上述行业痛点，浙江大学与腾讯的研究团队联合进行了一次重要实践。他们不仅构建了一个包含约1000万组高质量样本的“图像编辑习题集”——UnicEdit-10M，还配套推出了一套涵盖22类难度递进任务的“全真模拟考卷”——UnicBench。简而言之，这项研究为 AI 图像编辑模型领域提供了一套“标准化教材”与“标准化考试系统”。此外，团队还训练了一位“严格判官”（Qwen-Verify），对生成的编辑数据进行严格的筛选与指令优化，确保最终“习题”的答案既正确又优质。

UnicEdit-10M论文标题页
论文标题：UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

论文地址：https://arxiv.org/pdf/2512.02790
代码仓库：https://github.com/WeChatCV/UnicBench
项目主页：https://hongsexiaotanhua.github.io/UnicEdit-10M/
数据集：https://huggingface.co/datasets/xiaotanhua/UnicEdit-10M
Benchmark：https://huggingface.co/datasets/xiaotanhua/UnicBench

核心亮点

大规模高质量数据集 UnicEdit-10M：构建了包含约1000万（10M）样本的高质量图像编辑数据集。它覆盖了22种编辑任务，不仅包含基础的属性与对象编辑，还涵盖了需要几何空间变换和基于知识推理的复杂任务。同时，该数据集的图像在美学评分上也超越了其他同类数据集。
Qwen-Verify 后校验专家模型：训练了一个70亿（7B）参数规模的双任务专家模型。该模型能够同步执行细粒度的编辑失败检测与指令重写任务，在计算成本和经济成本远低于 Qwen2.5-VL-72B 的情况下，实现了更优的质检性能。
UnicBench 综合评估基准：提出了一个覆盖基础编辑、几何空间变换以及基于推理的编辑任务的综合评测基准。它引入了“非编辑一致性”和“推理准确性”等新颖评估指标，能够全面诊断模型的编辑能力短板，为未来研究指明了清晰的方向。

UnicEdit-10M各类编辑任务示例
图2：UnicEdit-10M 中所有子任务类别的代表性编辑样例。

UnicEdit-10M数据集构建

UnicEdit-10M 的构建遵循一个高效的三阶段自动化流水线：

指令生成阶段：使用 Qwen2.5-VL-72B 模型，依据预定义的、均衡的编辑任务分类体系，为每张输入图像自动生成 3 到 7 个多样化且与图像内容相关的编辑指令，完全无需人工标注。
图像编辑阶段：使用 FLUX.1-Kontext 和 Qwen-Image-Edit 这两款领先的开源编辑模型，对每一个〈原始图像，编辑指令〉进行处理，生成编辑后的图像，形成初始的（原始图，指令，编辑图）三元组。在此阶段，源图像会经过中心裁剪和缩放预处理，并进行质量检查，丢弃那些需要裁剪超过20%区域以避免关键内容丢失的图像。
后校验阶段：所有自动合成的三元组都需经过统一的“后校验”环节。这一步不仅会过滤掉编辑失败的样本，还会对语义对齐不足的指令进行优化重写，确保指令精确匹配视觉上的变化。

最终构建的 UnicEdit-10M 数据集包含约1000万个三元组，分为四大编辑类型：场景编辑（约306.3万样本）、属性编辑（约352.9万样本）、对象编辑（约324.2万样本）和推理编辑（约174.6万样本）。其中，50%的图像为1024×1024的高分辨率图像。

UnicEdit-10M数据构建三阶段流水线
图3：数据构建的三阶段流水线：(1) 数据准备；(2) 图像编辑；(3) 后验证。后验证阶段用于过滤失败的编辑样本并进行指令重写（Recaption）。

后校验专家模型

在后校验阶段，为了实现更精准、高效的质量控制，作者训练了一个70亿参数的双任务后校验专家模型——Qwen-Verify。该模型通过使用人类标注的偏好数据进行偏好对齐，从而实现更可靠的数据筛选。它能同时执行两个关键任务：

编辑失败检测：能够细粒度地识别出编辑失败的样本，包括“无编辑”、“产生幻觉”等情况。与传统的 SSIM 等像素级指标相比，Qwen-Verify 具备深层语义理解能力，能准确识别出语义有变化但视觉差异细微的编辑，同时忽略生成过程中无关紧要的像素级噪声。
编辑指令重写：能够对那些与编辑结果语义对齐不足的原始指令进行重写，确保文本指令与实际发生的视觉变换精确匹配。

对比实验显示，Qwen-Verify 在正常编辑、无编辑和幻觉检测的准确率上，均显著优于 Qwen2.5-VL-7B、Qwen2.5-VL-72B 等基线模型。在关键的人脸一致性指标上，经 Qwen-Verify 校验后的 UnicEdit-10M 数据得分高达 0.89，远优于 GPT-Image-Edit-1.5M 数据集的 0.3025，展现了其在保持关键主体细节方面的卓越能力。

图4：后校验专家模型工作效果对比示例。其中：Base 表示 Qwen2.5-VL-7B 模型；SFT 表示经过第一阶段指令微调后的基础模型；Ours 表示本文提出的双任务专家模型 Qwen-Verify。

UnicBench：综合编辑能力评测

UnicBench 是一个旨在全面评估模型在基础编辑、几何空间变换以及基于推理的编辑任务上能力的综合基准。其构建采用了视觉语言模型（VLM）与人工审核相结合的工作流：首先由 Qwen2.5-VL 生成候选评测指令，再由人类专家进行审核，移除模糊或语义不一致的提示，并重写指令以精确匹配特定的编辑任务类别，每个类别包含 50 个测试用例。

为实现更精准的评估，UnicBench 引入了四个专门的评估指标：

指令遵循度（IF）：通过基于 VLM 的跨模态对齐分数，衡量编辑后的图像满足原始指令要求的程度。
非编辑一致性（NC）：评估非目标编辑区域的保留情况，对编辑区域之外发生的意外变化进行惩罚。
视觉质量（VQ）：基于指令评估编辑后图像的自然度、整体连贯性以及视觉风格的一致性。
推理准确性（RA）：针对需要知识推理的编辑任务，VLM 会利用一份经过人工核验优化的“推理要点”列表，与实际编辑变化进行对比打分。

对主流模型的评估结果揭示了几个关键发现：闭源模型在整体能力上显著优于开源模型，其中 GPT-Image-1 在英文和中文任务上均取得了最高的综合得分，展现了最优的通用编辑能力。在开源模型中，Qwen-Image-Edit 表现最佳，正在缩小与闭源模型的差距。

然而，一个普遍且突出的问题是：所有模型在“推理准确性（RA）”这一指标上均出现了显著的性能下降。这表明，当前模型在执行需要复杂逻辑推理或世界知识辅助的编辑任务时，存在普遍的局限性，这也为未来的研究方向提供了明确的指引。

各模型在UnicBench各子任务上的综合评分雷达图
图5：各模型在 UnicBench 各子任务上的综合评分雷达图，左侧为英文（EN）指令结果，右侧为中文（CN）指令结果。所有结果均由 GPT-4o 进行评估。

不同模型在UnicBench上的详细性能对比表格
表1：不同模型在 UnicBench 上的综合性能表现。开源模型与闭源模型的结果分别列出，其中最优性能已加粗标出，次优性能以下划线标出。

这项由浙江大学与腾讯合作完成的工作，通过提供大规模高质量的数据集（UnicEdit-10M）和全面细致的评估体系（UnicBench），为开源图像编辑模型的发展提供了坚实的“基础设施”。它不仅有助于缩小开源与闭源模型之间的差距，也为整个社区探索更复杂、更可靠的图像编辑技术铺设了道路。对于从事相关研究和应用开发的开发者而言，这无疑是一个值得深入关注和利用的宝贵资源。想要了解更多前沿的AI技术与开源实战，欢迎持续关注云栈社区的更新。

上一篇：实测MiniMax M2.7：我们组建「西游取经团」，AI代理进化到哪一步了？
下一篇：半导体28nm为何被称为黄金节点：解析其成本、性能与产业经济学的完美平衡

计算机视觉, 图像编辑, AIGC, 多模态模型, CVPR