分类器无关引导(Classifier-Free Guidance, CFG)作为扩散模型推理阶段的一项常用技术,能有效提升图像生成质量。然而,该技术依赖文本条件,因此无法直接应用于无条件生成场景。
为此,上海交通大学人工智能教育部重点实验室与 vivo 研究团队联合提出了一种简洁、无需训练且不依赖条件引导的方法——自交换引导(Self-Swap Guidance, SSG)。该方法为引导过程提供了细粒度控制,能够在不引入破坏性噪声的同时破坏局部结构与全局语义,从而有效引导采样过程生成更高质量的图像。
在不同扩散模型、数据集及条件设置下的大量实验表明,SSG 能够一致地提升扩散模型的生成质量、提示对齐能力以及图像多样性。更广泛地,SSG 可作为即插即用模块轻松集成到现有扩散流程中,并与经典 CFG 兼容,从而在保真度、多样性及提示遵循之间实现灵活权衡。相关研究成果论文已被 CVPR 2026 收录为 Oral。

推理阶段采样引导
分类器无关引导 CFG 通过条件预测与无条件预测的线性外推,将生成样本引导向更高质量、与文本更对齐的结果:

在无条件下引导方法中,负向示例通过对模型前向机制施加扰动(如破坏输入或注意力图)来构造。记该降质预测为 $\epsilon_{\text{pert}}(x_t)$,则引导可类比定义为:

在此形式中外部条件(如文本)是可选的,这意味着无条件下引导可同时支持无条件生成与条件生成。
SSG方法
现有无条件下引导方法通常以全局方式添加扰动,忽略了网络层间的表示多样性与采样过程中的时间动态,易在早期时间步造成不可恢复的破坏。同时,由于扰动粒度过粗,难以在增强结构与纹理的同时避免引入退化。
1. token 的空间自交换
研究团队提出了一种局部且选择性的扰动策略,通过在每一样本的 token 特征中仅交换一部分 token 来实现,该操作跨层与时间步执行。
与全局噪声注入不同,token 级交换通过修改选定的语义单元子集来破坏语义与结构关系,其余部分保持不变。这种受控降质在生成弱化预测的同时保留全局一致性,从而在更广的扰动强度范围内增强对过饱和、失真等副作用的鲁棒性。
2. token 的通道自交换
在空间自交换的基础上,进一步将扰动策略扩展到通道维度,通过 token 特征的通道交换实现。
空间交换主要影响结构与几何一致性,而通道交换则沿通道维度对 token 特征进行重组,从而扰动模型对纹理、材质和全局外观等精细特征相关性的建模。
通过联合利用空间交换与通道交换,模型获得一种均衡且细粒度的扰动,得以同时增强局部细节与整体真实感。
3. 对抗性 token 交换
交换语义不相似的 token(而非随机选择)策略受到视觉 Transformer 与生成模型对抗性分析的启发,在不需广泛扰动的前提下更有效地弱化模型,实现简单且直接。
具体而言,对于空间自交换,给定一批 token 嵌入 $z$,首先沿特征维度对所有 token 向量进行归一化,并计算空间位置上 token 对之间的余弦相似度。选取相似度得分最低的 N 对 token,其中 N 由预定义的交换比率决定。使用这些 token 对的索引构建一个置换映射,以并行的方式交换对应的 token。
4. 集成到扩散模型
为将 SSG 集成到现有扩散模型中,在前向传播过程中保持两个并行分支。原始分支保持不变,而降质分支则应用所提出的 token 交换。两个分支的中间预测在每个阶段及每个时间步进行拼接,从而实现高效的并行处理,计算开销极小。
评估
在两个广泛使用的开源图像合成扩散模型上对所提方法进行评估,分别为 Stable Diffusion v1.5(SD1.5)和 Stable Diffusion XL(SDXL)。主要评估指标包括:用于图像保真度与美学质量(FID)、美学评分(AES)、PickScore 和 ImageReward(IR);用于多样性(IS)。此外,在条件生成中使用 CLIP Score 衡量提示对齐程度,在无条件生成中使用改进的精确率与召回率(Precision and Recall)。
1. SSG 在无条件生成中的表现
表 1 展示了在 MS-COCO 2014 数据上多种无条件下引导方法的全面定量比较。在 SDXL 模型上,SSG 在所有指标上均取得最佳性能,显著领先于先前方法。
表 1 SDXL 在 MS COCO-2014 上无条件图像生成的定量比较

表 2 报告了 SD1.5 在 ImageNet 数据上的结果,SSG 取得了最佳的 FID 和整体性能。
表 2 SD1.5 在 ImageNet 上无条件图像生成的定量比较

定性结果如图 1 所示:在无条件生成设置下,现有方法倾向于生成非真实感内容,甚至出现重复图案或纹理。相比之下,SSG 生成低质量图像的倾向更小,更有可能呈现真实的纹理和连贯的布局。

图 1 SDXL 无条件图像生成的定性比较
2. SSG 在条件生成中的表现
表 3 展示了 SDXL 模型在 MS-COCO 2014 评估集上的定量结果。SSG 在所有指标上均比原始基线有显著提升。
表 3 SDXL 在 MS-COCO 2014 上条件图像生成的定量比较

表 4 给出了在 MS-COCO 2017 验证样本上的定量结果,SSG 在所有指标上保持其优势,进一步验证了其有效性。
表 4 SDXL 在 MS-COCO 2017 上条件图像生成的定量比较

图 2 的定性比较表明,SSG 更有可能生成高保真图像,这些图像在全局连贯性、局部结构和纹理方面更具真实感,同时与文本提示的对齐程度也更高。
综合上述定量与定性结果,证实了 SSG 在更好地引导扩散采样方面的合理性与有效性。

图 2 SDXL 条件图像生成的定性比较