3134 积分	1 好友	433 主题

[其他] Wan-Move技术解析：无需修改模型实现点级运动可控视频生成

发表于 2025-12-15 23:19:37 | 查看: 64| 回复: 0

在视频生成领域，实现精准的“运动可控”一直是技术难点。传统方法通常只能控制整体运动方向，或者需要引入额外的运动编码器和复杂结构改造，导致训练和扩展成本极高。

近期，阿里巴巴达摩院视觉团队（ali-vilab）开源了Wan-Move项目，提出了一种几乎零结构侵入的运动控制方案。该方案在不修改原有Image-to-Video（I2V）模型结构的前提下，实现了点级精细运动控制，为人工智能视频生成带来了新的突破。

一、Wan-Move 解决了什么问题？

当前主流视频生成模型在运动控制上普遍存在三大问题：

Wan-Move的目标很明确：在不修改基础视频生成模型结构的情况下，实现精细、稳定且可扩展的运动控制。

Wan-Move的核心创新在于提出了潜空间轨迹引导（Latent Trajectory Guidance）。

简单来说，它不直接控制像素或网络结构，而是把“运动轨迹”写入模型的潜空间条件中。具体实现包含四个关键步骤。

Wan-Move使用点级轨迹（Point Trajectory）来描述运动：

相比光流或整体运动参数，点轨迹具备更高精度、更灵活的表达能力，更适合局部控制。

与传统方法不同，Wan-Move不在像素空间操作运动，而是：

这样，每个轨迹点都对应一段潜空间特征。

这是Wan-Move最关键的一步：

这一过程本质上是利用轨迹“搬运”首帧的语义和外观信息，从而保证外观一致性、运动方向准确性和时序稳定性。

生成的时空潜特征会被直接作为更新后的条件输入，喂给原本的Image-to-Video模型（如Wan-I2V-14B）。

整个过程不增加新的网络模块，也不修改原模型结构，仅做条件层面的替换或叠加。这也是Wan-Move能快速扩展到14B参数模型的关键原因。

Wan-Move采用可扩展的训练流程：

项目最终发布了Wan-Move-14B-480P模型，可直接用于推理与复现。

为客观评估运动可控能力，作者构建了MoveBench评测集：

在MoveBench和公开数据集上，Wan-Move在运动准确性、外观保持和时序稳定性等指标上均取得了显著优势。

根据论文与项目展示结果：

更重要的是，这些能力是在不修改模型结构的前提下实现的。