云栈社区»论坛 › 开源实战「 OpenSource 」 › TVG无训练过渡视频生成：扩散模型如何实现高质量帧间平滑过渡？ ...

发回帖发新帖

4832 积分	0 好友	627 主题

发消息

[Python] TVG无训练过渡视频生成：扩散模型如何实现高质量帧间平滑过渡？

发表于 2026-4-11 08:42:17 | 查看: 89| 回复: 0

本文讨论了一种名为 TVG 的创新方法，它能在不进行额外训练的前提下，利用扩散模型生成高质量的过渡视频。论文及代码均已开源：

项目主页: https://sobeymil.github.io/tvg.com/
GitHub: https://github.com/SobeyMIL/TVG

从男性角色、云海、豹子到少年/橘猫/蜘蛛侠的过渡视频效果对比图

研究背景：视频过渡的痛点

你是否想过，如何让两段差异巨大的视频片段实现丝滑、自然的衔接？传统视频变形技术往往效果生硬，缺乏艺术感，对创作者的技能要求也很高。

近年来，基于扩散模型的图像和视频生成技术为这个问题提供了新思路，通过生成中间帧来实现过渡。然而，当起始帧和结束帧在内容上存在显著差异时，现有方法常常力不从心，要么产生突兀的跳跃变化，要么只能生成平淡的淡入淡出效果，甚至会出现破坏画面的伪影。

核心挑战是什么？

视频过渡生成主要面临两大难点：

图像级模型的局限：直接扩展单图像扩散模型难以稳健地建模帧间关系。当画面主体变化很大时，这类模型虽然能避免剧烈跳变，但往往生成动态性不足的结果，比如简单的淡出效果。
视频级模型的瓶颈：专为视频设计的扩散模型通过时空注意力来建立帧间联系，但容易出现条件图像信息泄露、交叉注意力失效或注意力机制激活不当等问题，导致过渡不自然或生成异常内容。

TVG方法的精妙之处

这篇论文提出的TVG方法，基于开源的 DynamiCrafter 模型进行改进，无需重新训练，专门攻克上述难题。其核心在于对条件控制、潜在空间建模和特征融合三方面的优化。

TVG方法整体架构流程图

1. 条件控制优化
为了给模型提供更平滑的引导，TVG首先对输入的条件图像和文本提示进行插值处理：

图像条件：通过对起始帧（Input A）和结束帧（Input B）进行线性插值（SLERP Blending），生成一系列融合图像作为视觉条件。
文本提示：对描述两个场景的文本提示（Text Prompt A/B），同样使用时序级的球面线性插值（SLERP）来生成过渡的语义特征。

这样，模型在去噪过程的每一步，都能获得一个从起点平滑变化到终点的“路标”，从而引导生成连贯的中间帧。

2. 潜在空间高斯过程回归
这是TVG的一个关键创新。在模型U-Net的潜在空间中，TVG引入了高斯过程回归来显式地建模并约束帧与帧之间的关系。简单来说，GPR能够学习一个连续的分布函数，预测出某一帧在给定其前后帧特征时应有的样子。公式（9）展示了如何将GPR预测的帧间关系融入到注意力机制中，从而确保生成的视频序列在内容上保持连贯和平滑演进。

3. 频率感知双向融合
TVG同时生成“从前向后”和“从后向前”两个过渡视频序列。然后，在潜在空间中使用上述GPR方法对这两个序列的特征分布进行对齐。最后，通过一个频率感知的双向融合模块，将两个序列的低频（结构、轮廓）和高频（细节、纹理）信息智能地结合起来，生成最终的视频。公式（10）描述了这一融合过程，确保了输出视频兼具时序平滑性和丰富的视觉细节。