云栈社区»论坛 › 技术文档「 Note & Doc 」 › 扩散模型采样新范式SSG：无需训练、即插即用的自交换引导技术 ...

发回帖发新帖

5780 积分	0 好友	764 主题

发消息

扩散模型采样新范式SSG：无需训练、即插即用的自交换引导技术

发表于 2026-4-15 04:10:30 | 查看: 142| 回复: 0

分类器无关引导（Classifier-Free Guidance, CFG）作为扩散模型推理阶段的一项常用技术，能有效提升图像生成质量。然而，该技术依赖文本条件，因此无法直接应用于无条件生成场景。

为此，上海交通大学人工智能教育部重点实验室与 vivo 研究团队联合提出了一种简洁、无需训练且不依赖条件引导的方法——自交换引导（Self-Swap Guidance, SSG）。该方法为引导过程提供了细粒度控制，能够在不引入破坏性噪声的同时破坏局部结构与全局语义，从而有效引导采样过程生成更高质量的图像。

在不同扩散模型、数据集及条件设置下的大量实验表明，SSG 能够一致地提升扩散模型的生成质量、提示对齐能力以及图像多样性。更广泛地，SSG 可作为即插即用模块轻松集成到现有扩散流程中，并与经典 CFG 兼容，从而在保真度、多样性及提示遵循之间实现灵活权衡。相关研究成果论文已被 CVPR 2026 收录为 Oral。

论文标题页：Guiding a Diffusion Model by Swapping Its Tokens

论文标题：Guiding a Diffusion Model by Swapping Its Tokens
论文链接：https://arxiv.org/pdf/2604.08048

推理阶段采样引导

分类器无关引导 CFG 通过条件预测与无条件预测的线性外推，将生成样本引导向更高质量、与文本更对齐的结果：

CFG公式

在无条件下引导方法中，负向示例通过对模型前向机制施加扰动（如破坏输入或注意力图）来构造。记该降质预测为 $\epsilon_{\text{pert}}(x_t)$，则引导可类比定义为：

无条件引导公式

在此形式中外部条件（如文本）是可选的，这意味着无条件下引导可同时支持无条件生成与条件生成。

SSG方法

现有无条件下引导方法通常以全局方式添加扰动，忽略了网络层间的表示多样性与采样过程中的时间动态，易在早期时间步造成不可恢复的破坏。同时，由于扰动粒度过粗，难以在增强结构与纹理的同时避免引入退化。

1. token 的空间自交换

研究团队提出了一种局部且选择性的扰动策略，通过在每一样本的 token 特征中仅交换一部分 token 来实现，该操作跨层与时间步执行。

与全局噪声注入不同，token 级交换通过修改选定的语义单元子集来破坏语义与结构关系，其余部分保持不变。这种受控降质在生成弱化预测的同时保留全局一致性，从而在更广的扰动强度范围内增强对过饱和、失真等副作用的鲁棒性。

2. token 的通道自交换

在空间自交换的基础上，进一步将扰动策略扩展到通道维度，通过 token 特征的通道交换实现。

空间交换主要影响结构与几何一致性，而通道交换则沿通道维度对 token 特征进行重组，从而扰动模型对纹理、材质和全局外观等精细特征相关性的建模。

通过联合利用空间交换与通道交换，模型获得一种均衡且细粒度的扰动，得以同时增强局部细节与整体真实感。

3. 对抗性 token 交换

交换语义不相似的 token（而非随机选择）策略受到视觉 Transformer 与生成模型对抗性分析的启发，在不需广泛扰动的前提下更有效地弱化模型，实现简单且直接。

具体而言，对于空间自交换，给定一批 token 嵌入 $z$，首先沿特征维度对所有 token 向量进行归一化，并计算空间位置上 token 对之间的余弦相似度。选取相似度得分最低的 N 对 token，其中 N 由预定义的交换比率决定。使用这些 token 对的索引构建一个置换映射，以并行的方式交换对应的 token。

4. 集成到扩散模型

为将 SSG 集成到现有扩散模型中，在前向传播过程中保持两个并行分支。原始分支保持不变，而降质分支则应用所提出的 token 交换。两个分支的中间预测在每个阶段及每个时间步进行拼接，从而实现高效的并行处理，计算开销极小。

评估

在两个广泛使用的开源图像合成扩散模型上对所提方法进行评估，分别为 Stable Diffusion v1.5（SD1.5）和 Stable Diffusion XL（SDXL）。主要评估指标包括：用于图像保真度与美学质量（FID）、美学评分（AES）、PickScore 和 ImageReward（IR）；用于多样性（IS）。此外，在条件生成中使用 CLIP Score 衡量提示对齐程度，在无条件生成中使用改进的精确率与召回率（Precision and Recall）。