云栈社区»论坛 › 开源实战「 OpenSource 」 › ICLR 2026收录：Vivid-VR算法如何用概念蒸馏解决视频复原分布漂 ...

5320 积分	0 好友	738 主题

发消息

[Python] ICLR 2026收录：Vivid-VR算法如何用概念蒸馏解决视频复原分布漂移

发表于 2026-3-5 04:47:45 | 查看: 91| 回复: 0

Vivid-VR论文标题与作者信息

本文介绍的是一种名为 Vivid-VR 的生成式视频复原算法，该成果已被顶级机器学习会议 ICLR 2026 收录。针对现有基于扩散模型的视频复原方法在微调时常见的“分布漂移”问题——这会导致纹理失真和时序不一致——Vivid-VR 创新性地提出了 “概念蒸馏” 训练策略。它利用文本到视频（T2V）基座模型自身来合成与文本完美对齐的训练数据，从而将其概念理解能力迁移至复原任务中。此外，文章还设计了控制特征投影器以过滤输入视频的退化伪影，以及双分支连接器以动态融合控制特征。实验表明，Vivid-VR 在真实拍摄视频和 AIGC 视频上，均在纹理真实感、视觉生动性和时序一致性方面显著优于现有的 SOTA 方法。

论文背景介绍

ICLR（国际表征学习大会）是机器学习领域的全球顶级学术会议，重点关注深度学习前沿研究。ICLR 2026 收到了近 19,000 篇有效投稿，整体录用率约 28%。这篇由淘天音视频技术团队完成的论文，属于基于生成式大模型的视频复原领域。

当前，尽管扩散模型在图像复原上成果显著，但如何将其成功应用于视频复原仍面临挑战。微调过程中存在的“分布漂移”问题，使得现有生成式视频复原方法在纹理真实感和时序一致性上表现不佳。为此，该团队自研了基于概念蒸馏的模型 Vivid-VR。该模型在多种视频类型上均表现出色，超越了现有方法。

论文下载链接： https://arxiv.org/abs/2508.14483
项目开源地址： https://github.com/csbhr/Vivid-VR

论文摘要

该论文提出了 Vivid-VR，一种基于 Diffusion Transformer（DiT）架构的生成式视频复原方法。该方法基于 T2V 基础模型构建，并利用 ControlNet 控制生成过程以确保内容一致性。

然而，传统微调方法由于多模态对齐不完美，极易导致“分布漂移”，从而降低生成视频的质量。为此，本文提出了一种“概念蒸馏”训练策略，利用预训练的 T2V 模型自身来合成内嵌文本概念的训练样本，从而将其概念理解能力“蒸馏”到复原模型中。

此外，为了增强生成可控性，本文重新设计了控制架构的两个关键组件：

控制特征投影器：用于过滤输入视频潜在空间中的退化伪影。
双分支连接器：结合 MLP 特征映射与交叉注意力机制，实现控制特征的动态检索。

大量实验表明，Vivid-VR 在合成数据集、真实世界视频以及 AIGC 视频上的表现均优于现有方法。

真实世界与AIGC视频修复效果对比
图1. 在真实拍摄视频（左）和AIGC视频（右）上的视频复原结果对比

具体方法

在生成式视频复原的新范式下，如何利用强大的 T2V 基座模型修复低质视频，同时避免模型在微调过程中“遗忘”原有的生成能力，是关键挑战。团队发现，现有微调方法会导致模型偏离其原始潜在分布，即“分布漂移”。Vivid-VR 从数据策略和模型架构两个维度进行了重构。

核心痛点

现有基于 T2V 的视频复原方法，通常需要“低质视频”和对应的“文本描述”作为输入。构建训练数据时，常用视觉语言模型（VLM）根据视频生成文本描述。但 VLM 生成的描述往往无法与视频内容完美对齐。在微调过程中，这种“图文不符”的噪声数据会导致“分布漂移”，表现为生成的视频纹理失真以及帧间闪烁或形变。

概念蒸馏训练策略

为了解决分布漂移问题，团队并未追求更昂贵的 VLM 标注模型，而是提出了一种巧妙的“概念蒸馏”策略，利用 T2V 基座模型本身的生成能力来构建训练数据。

海量高质量训练视频构建
为满足基于 DiT 架构方法的训练需求，团队收集了 300 万 个高清视频，涵盖人像、自然景观、动植物、城市景观等广泛场景。通过多种质量评估算子筛选后，使用 VLM 模型生成对应文本描述。最终精选的多模态训练数据集包含 50 万个 文本-视频对。

概念蒸馏样本合成
由于 VLM 模型的限制，构建的文本-视频数据对并未完美对齐，这可能导致微调期间出现“分布漂移”问题。开发更准确的 VLM 模型不仅成本高昂，且无法消除在 T2V 模型潜在空间的差异。

为此，团队采用 T2V 模型本身来执行文本引导的 Video-to-Video 任务，生成用于蒸馏的训练数据。具体来说，给定一个文本-视频对，对源视频施加特定强度的噪声，然后使用 T2V 基座模型在文本描述的引导下对噪声视频进行去噪重构。如图 2（第二行）所示，生成的视频很大程度上保留了源内容，但修改了一些概念以更好地与文本描述保持一致。团队生成了 10万 个这样的样本对，将其与原始训练数据集混合，用于对基于 DiT 的视频复原模型进行微调。

这一过程中，生成的视频在 T2V 模型的潜在空间中与文本描述实现了天然的完美对齐。将这些合成数据混合到训练集中，Vivid-VR 成功地将 T2V 基座模型对文本概念的深刻理解转移到了视频复原模型中，有效缓解了“分布漂移”问题。

概念蒸馏策略生成视频示例
图2. 由概念蒸馏策略生成的示例视频。第一行显示源视频，第二行显示通过 T2V 模型嵌入文本概念后生成的视频。生成的视频具有更好的模态对齐。

模型架构

图3给出了 Vivid-VR 的模型架构示意图。除了数据策略，本文在架构设计上也针对 DiT 特性进行了两项关键改进。

Vivid-VR模型架构示意图
图3. Vivid-VR 模型架构示意图

控制特征投影器
直接将低质视频的潜在特征输入 ControlNet 会引入大量退化信息（如模糊、压缩伪影）。本文设计了一个轻量级的特征投影器，使其在特征进入生成流程前，有效滤除退化伪影，得到更纯净的控制信号。该投影器由三个级联的时空残差卷积模块组成，相比联合微调整个 VAE 编码器，该方案以极低的计算开销实现了类似效果。

双分支连接器
当前常用的 ControlNet 连接器（如 ZeroMLP、ZeroSFT）难以充分融合 DiT 特征。本文设计了全新的双分支连接器结构：

双分支连接器公式

公式为：$\hat{f}^i = f^i + \text{MLP}(c) + \text{CA}(f^i, c)$，其中：

MLP分支：负责控制特征的映射。
Cross-Attention分支：利用注意力机制动态检索相关的控制特征。

这种设计既保留了控制特征的内容结构，又实现了对控制信号的自适应调制，显著提升了生成质量。

实验论证与结果

为全面评估 Vivid-VR 的性能，团队在合成数据集（SPMCS, UDM10, YouHQ40）、真实世界数据集（VideoLQ, UGC50）以及 AIGC 视频数据集（AIGC50）上进行了广泛测试，并与现有方法对比，包括基于重建的方法（Real-ESRGAN）、生成式图像复原方法（SUPIR）、生成式视频复原方法（MGLD, UAV, STAR, DOVE, SeedVR）。