找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5239

积分

0

好友

733

主题
发表于 3 小时前 | 查看: 2| 回复: 0

分类器无关引导(Classifier-Free Guidance, CFG)作为扩散模型推理阶段的一项常用技术,能有效提升图像生成质量。然而,该技术依赖文本条件,因此无法直接应用于无条件生成场景。

为此,上海交通大学人工智能教育部重点实验室与 vivo 研究团队联合提出了一种简洁、无需训练且不依赖条件引导的方法——自交换引导(Self-Swap Guidance, SSG)。该方法为引导过程提供了细粒度控制,能够在不引入破坏性噪声的同时破坏局部结构与全局语义,从而有效引导采样过程生成更高质量的图像。

在不同扩散模型、数据集及条件设置下的大量实验表明,SSG 能够一致地提升扩散模型的生成质量、提示对齐能力以及图像多样性。更广泛地,SSG 可作为即插即用模块轻松集成到现有扩散流程中,并与经典 CFG 兼容,从而在保真度、多样性及提示遵循之间实现灵活权衡。相关研究成果论文已被 CVPR 2026 收录为 Oral。

论文标题页:Guiding a Diffusion Model by Swapping Its Tokens

推理阶段采样引导

分类器无关引导 CFG 通过条件预测与无条件预测的线性外推,将生成样本引导向更高质量、与文本更对齐的结果:

CFG公式

在无条件下引导方法中,负向示例通过对模型前向机制施加扰动(如破坏输入或注意力图)来构造。记该降质预测为 $\epsilon_{\text{pert}}(x_t)$,则引导可类比定义为:

无条件引导公式

在此形式中外部条件(如文本)是可选的,这意味着无条件下引导可同时支持无条件生成与条件生成。

SSG方法

现有无条件下引导方法通常以全局方式添加扰动,忽略了网络层间的表示多样性与采样过程中的时间动态,易在早期时间步造成不可恢复的破坏。同时,由于扰动粒度过粗,难以在增强结构与纹理的同时避免引入退化。

1. token 的空间自交换

研究团队提出了一种局部且选择性的扰动策略,通过在每一样本的 token 特征中仅交换一部分 token 来实现,该操作跨层与时间步执行。

与全局噪声注入不同,token 级交换通过修改选定的语义单元子集来破坏语义与结构关系,其余部分保持不变。这种受控降质在生成弱化预测的同时保留全局一致性,从而在更广的扰动强度范围内增强对过饱和、失真等副作用的鲁棒性。

2. token 的通道自交换

在空间自交换的基础上,进一步将扰动策略扩展到通道维度,通过 token 特征的通道交换实现。

空间交换主要影响结构与几何一致性,而通道交换则沿通道维度对 token 特征进行重组,从而扰动模型对纹理、材质和全局外观等精细特征相关性的建模。

通过联合利用空间交换与通道交换,模型获得一种均衡且细粒度的扰动,得以同时增强局部细节与整体真实感。

3. 对抗性 token 交换

交换语义不相似的 token(而非随机选择)策略受到视觉 Transformer 与生成模型对抗性分析的启发,在不需广泛扰动的前提下更有效地弱化模型,实现简单且直接。

具体而言,对于空间自交换,给定一批 token 嵌入 $z$,首先沿特征维度对所有 token 向量进行归一化,并计算空间位置上 token 对之间的余弦相似度。选取相似度得分最低的 N 对 token,其中 N 由预定义的交换比率决定。使用这些 token 对的索引构建一个置换映射,以并行的方式交换对应的 token。

4. 集成到扩散模型

为将 SSG 集成到现有扩散模型中,在前向传播过程中保持两个并行分支。原始分支保持不变,而降质分支则应用所提出的 token 交换。两个分支的中间预测在每个阶段及每个时间步进行拼接,从而实现高效的并行处理,计算开销极小。

评估

在两个广泛使用的开源图像合成扩散模型上对所提方法进行评估,分别为 Stable Diffusion v1.5(SD1.5)和 Stable Diffusion XL(SDXL)。主要评估指标包括:用于图像保真度与美学质量(FID)、美学评分(AES)、PickScore 和 ImageReward(IR);用于多样性(IS)。此外,在条件生成中使用 CLIP Score 衡量提示对齐程度,在无条件生成中使用改进的精确率与召回率(Precision and Recall)。

1. SSG 在无条件生成中的表现

表 1 展示了在 MS-COCO 2014 数据上多种无条件下引导方法的全面定量比较。在 SDXL 模型上,SSG 在所有指标上均取得最佳性能,显著领先于先前方法。

表 1  SDXL 在 MS COCO-2014 上无条件图像生成的定量比较

SDXL在MS-COCO 2014上的无条件生成定量结果

表 2 报告了 SD1.5 在 ImageNet 数据上的结果,SSG 取得了最佳的 FID 和整体性能。

表 2  SD1.5 在 ImageNet 上无条件图像生成的定量比较

SD1.5在ImageNet上的无条件生成定量结果

定性结果如图 1 所示:在无条件生成设置下,现有方法倾向于生成非真实感内容,甚至出现重复图案或纹理。相比之下,SSG 生成低质量图像的倾向更小,更有可能呈现真实的纹理和连贯的布局。

SDXL无条件图像生成的定性比较

图 1  SDXL 无条件图像生成的定性比较

2. SSG 在条件生成中的表现

表 3 展示了 SDXL 模型在 MS-COCO 2014 评估集上的定量结果。SSG 在所有指标上均比原始基线有显著提升。

表 3  SDXL 在 MS-COCO 2014 上条件图像生成的定量比较

SDXL在MS-COCO 2014上的条件生成定量结果

表 4 给出了在 MS-COCO 2017 验证样本上的定量结果,SSG 在所有指标上保持其优势,进一步验证了其有效性。

表 4  SDXL 在 MS-COCO 2017 上条件图像生成的定量比较

SDXL在MS-COCO 2017上的条件生成定量结果

图 2 的定性比较表明,SSG 更有可能生成高保真图像,这些图像在全局连贯性、局部结构和纹理方面更具真实感,同时与文本提示的对齐程度也更高。

综合上述定量与定性结果,证实了 SSG 在更好地引导扩散采样方面的合理性与有效性。

SDXL条件图像生成的定性比较

图 2  SDXL 条件图像生成的定性比较




上一篇:Linux 7.0内核正式发布:引入EEVDF调度器,全面增强硬件支持
下一篇:RA系列MCU DAC实战:用FSP库驱动P014引脚输出可调正弦波
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-15 07:22 , Processed in 1.020371 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表