云栈社区»论坛 › 开源实战「 OpenSource 」 › Wan-Alpha：基于透明度分布平移的RGB-A视频生成方法详解 ...

发回帖发新帖

5313 积分	0 好友	722 主题

发消息

[Python] Wan-Alpha：基于透明度分布平移的RGB-A视频生成方法详解

发表于 2026-3-25 23:33:43 | 查看: 87| 回复: 0

RGB-A 视频在普通的彩色（RGB）视频之外，增加了一个透明度（Alpha）通道。这一特性为游戏设计、影视后期以及交互界面开发等创意领域打开了新的想象空间。然而，现有的技术方案常常面临一个核心难题：RGB色彩信息与Alpha透明度信息在生成过程中容易相互干扰，导致最终效果在画面质量和透明感上都差强人意。问题的关键在于，如何将二者的数据分布有效解耦，并让模型学会协同生成它们。

近日，一项由天津大学等机构的研究者提出的工作给出了出色的解决方案。他们开源了名为 Wan-Alpha 的高质量 RGB-A 视频生成模型。该方法通过在潜空间与噪声空间中巧妙地“平移”透明度分布，同时严格保持 RGB 信息的保真度，从而实现了稳定且可控的透明效果生成。

动态泡泡特效示例

生成视频示例：泡泡内的动态光效

透明球体内部动态图案

Alpha通道可视化：球体内部的动态结构

借助独创的透明度感知双向扩散损失与均值平移噪声采样器，该方法在复杂边缘和半透明特效的渲染上表现优异。实验表明，该模型在文本对齐度、视觉美感、画面自然度、运动平滑性以及时序一致性等多个关键指标上，均显著超越了现有的SOTA方法。目前，Wan-Alpha的模型、代码均已开源，相关论文也已被顶级会议CVPR 2026接收。

Wan-Alpha论文标题页

论文标题：Video Generation with Stable Transparency via Shiftable RGB-A Distribution Learner

论文链接：https://arxiv.org/pdf/2509.24979
项目主页：https://donghaotian123.github.io/Wan-Alpha/
GitHub：https://github.com/WeChatCV/Wan-Alpha
HuggingFace：https://huggingface.co/htdong/Wan-Alpha-v2.0

方法

透明度感知双向扩散损失框架图

图1：RGB-A VAE的训练框架。

1. 可区分的 RGB-A 潜空间学习

Wan-Alpha的整体架构如图1所示。它以强大的文本到视频基础模型 Wan2.1-T2V-14B 为基底，并将其中的VAE（变分自编码器）扩展为能够同时编码RGB和Alpha信息的共享潜空间。然而，简单的直接编码容易导致两种特征耦合，从而在生成时引入空洞或伪影。

透明度感知双向扩散损失：为了提升潜空间的质量，研究团队的目标是在保持RGB分布不变的前提下，“平移”Alpha的分布。他们引入了一个冻结的DiT（扩散变换器），并利用一种双向扩散损失。该损失通过掩码反转透明区域的梯度符号，引导VAE学习到更具区分性的RGB-A潜在表示。

渲染损失：为了进一步增强重建质量，论文定义了两种渲染函数：

软渲染：模拟真实的半透明叠加效果。
硬渲染：产生清晰的、不透明的轮廓。

训练时，会从一个预定义的颜色集合中随机选取背景色进行渲染。

$$ R^s(V_{rgb}, V_{\alpha}, c) = V_{rgb} \cdot V_{\alpha} + c \cdot (1 - V_{\alpha}), $$

$$ R^h(V_{rgb}, V_{\alpha}, c) = V_{rgb} \cdot 1_{V_{\alpha}>0} + c \cdot (1 - 1_{V_{\alpha}>0}) $$

为了使模型能差异化地关注不透明、半透明和完全透明的区域，他们将一个复合重建损失分别应用于Alpha视频、软渲染视频和硬渲染视频这三种模态。该复合损失结合了像素级重建误差、感知损失和边缘一致性约束。

$$ \mathcal{L}_{\Phi} = ||\Phi(\hat{W}) - \Phi(V)||_2, $$

$$ \mathcal{L}_s = ||S(\hat{W}) - S(V)||, $$

$$ \mathcal{L}_{recon}(\hat{W}, V) = ||\hat{W} - V|| + \mathcal{L}_{\Phi} + \mathcal{L}_s, $$

这三种损失共同构成了VAE的最终训练目标。

2. 可控的 RGB-A 生成

当我们将一个预训练好的纯RGB模型适配到RGB-A生成任务时，保留基础模型强大的生成能力对效果提升至关重要，但这也会带来一个副作用：模型可能倾向于生成我们不希望的背景内容。

研究团队提出，将透明度先验信息直接“注入”到初始的高斯噪声中。这一策略促使视频生成模型更好地区分前景（不透明/半透明）与背景（透明）区域，同时也为透明度的生成提供了一个可控的“开关”。

透明度引导的均值采样器：在修正流框架下，该方法根据输入Alpha视频的信息来平移噪声的均值，并引入一个高斯椭圆掩码来精细控制透明区域的噪声分布。

透明度引导均值采样器框架

图2：RGB-A视频生成的训练框架。

架构设计如图2所示。采用预训练好的RGB-A VAE编码器获取潜变量，与平移后的噪声结合形成含噪潜变量。其中的DiT部分采用DoRA（权重分解的低秩适应）方式进行训练，以提升语义对齐与生成质量。

在推理阶段，仅需修改初始噪声的生成方式和解码器配置，所有参数均可合并，不引入任何额外计算开销。得益于LightX2V加速技术，仅需4步采样即可生成高质量结果，推理速度比现有最优方法提升了15倍。这项技术在开源实战社区中引起了广泛关注，为高效视频生成提供了新的思路。

数据集

VAE的训练数据涵盖了10个图像抠图和3个视频抠图数据集。对于图像数据，通过将其转换为静态视频并在时间轴上进行滑动窗口采样，来模拟动态效果。数据集按95:5的比例划分为训练集和验证集，分别包含77,237和4,066个视频片段。

RGB-A视频生成模型的训练数据来源于同批次采集的数据，并经过筛选，重点关注包含复杂运动、半透明物体（如纱、烟雾）以及特殊光照效果的样本。利用Qwen2.5-VL-72B模型为这些样本生成详细的文字描述，并标注了动作速度、艺术风格等属性标签。最终的数据集包含301个视频抠图视频、43幅图像抠图图像以及85个从互联网收集的特效视频，这些高质量的数据对训练强大的人工智能模型至关重要。

数据集样本示例

图3：数据集中复杂边缘与多种半透明特效的样本示例。

评估

RGB-A视频生成是一个新兴任务，目前仅有TransPixeler和LayerFlow能够直接生成RGB-A视频。对于TransPixeler，除了评估其开源版本，还在Adobe Firefly上评估了其闭源版本。为了进行更全面的对比，研究者还将LayerDiffuse（一个图像层生成模型）集成到了文本到视频模型AnimateDiff中。

定量结果如表1所示。得益于“保持RGB分布以维持基础模型能力，同时平移透明度分布以更好区分透明区域”的框架设计，Wan-Alpha在表1的所有定量指标上均取得了最优结果。

表1：与现有RGB-A视频生成方法的定量对比结果。

定量评估结果表格