找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1180

积分

1

好友

161

主题
发表于 前天 23:19 | 查看: 4| 回复: 0

图片

在视频生成领域,实现精准的“运动可控”一直是技术难点。传统方法通常只能控制整体运动方向,或者需要引入额外的运动编码器和复杂结构改造,导致训练和扩展成本极高。

近期,阿里巴巴达摩院视觉团队(ali-vilab)开源了Wan-Move项目,提出了一种几乎零结构侵入的运动控制方案。该方案在不修改原有Image-to-Video(I2V)模型结构的前提下,实现了点级精细运动控制,为人工智能视频生成带来了新的突破。

图片

一、Wan-Move 解决了什么问题?

当前主流视频生成模型在运动控制上普遍存在三大问题:

  1. 控制粒度粗:多数方法只能控制整体运动方向,无法精确指定局部区域如何移动。
  2. 结构改造重:依赖额外的运动编码器、ControlNet或光流网络,导致训练成本高、迁移困难。
  3. 难以扩展到大模型:一旦模型参数规模增大,运动模块往往成为性能瓶颈。

Wan-Move的目标很明确:在不修改基础视频生成模型结构的情况下,实现精细、稳定且可扩展的运动控制。

二、核心思想:Latent Trajectory Guidance

Wan-Move的核心创新在于提出了潜空间轨迹引导(Latent Trajectory Guidance)

简单来说,它不直接控制像素或网络结构,而是把“运动轨迹”写入模型的潜空间条件中。具体实现包含四个关键步骤。

三、关键技术机制详解

1️⃣ 用“点轨迹”表示运动

Wan-Move使用点级轨迹(Point Trajectory)来描述运动:

  • 每条轨迹表示某个点在视频时间维度上的位移。
  • 支持单点、多点甚至稠密点集。
  • 可表达直线、曲线或大幅度位移。

相比光流或整体运动参数,点轨迹具备更高精度、更灵活的表达能力,更适合局部控制。

2️⃣ 轨迹映射到潜空间(Latent Space)

与传统方法不同,Wan-Move不在像素空间操作运动,而是:

  • 将首帧输入VAE或编码器。
  • 得到对应的潜特征图(latent feature map)。
  • 根据轨迹,在潜特征图中定位对应位置的特征向量。

这样,每个轨迹点都对应一段潜空间特征。

3️⃣ 沿轨迹传播首帧特征

这是Wan-Move最关键的一步:

  • 将首帧的潜特征沿着轨迹方向进行传播。
  • 在每个时间步生成一个“对齐后的潜特征”。
  • 最终形成一个时空一致的潜空间条件。

这一过程本质上是利用轨迹“搬运”首帧的语义和外观信息,从而保证外观一致性、运动方向准确性和时序稳定性。

4️⃣ 无侵入式接入 I2V 模型

生成的时空潜特征会被直接作为更新后的条件输入,喂给原本的Image-to-Video模型(如Wan-I2V-14B)。

整个过程不增加新的网络模块,也不修改原模型结构,仅做条件层面的替换或叠加。这也是Wan-Move能快速扩展到14B参数模型的关键原因。

图片

图片

四、训练与规模化策略

Wan-Move采用可扩展的训练流程:

  • 基于大规模视频数据进行训练。
  • 支持生成5秒、480p(832×480)分辨率的视频。
  • 在训练中加入时序一致性与对齐约束。

项目最终发布了Wan-Move-14B-480P模型,可直接用于推理与复现。

五、MoveBench:专门为“运动控制”设计的评测集

为客观评估运动可控能力,作者构建了MoveBench评测集:

  • 包含更长视频时长(如5秒)和更复杂运动场景。
  • 提供点轨迹与分割掩码标注。
  • 专注评测模型是否真正按轨迹运动。

在MoveBench和公开数据集上,Wan-Move在运动准确性、外观保持和时序稳定性等指标上均取得了显著优势。

六、效果与对比结论

根据论文与项目展示结果:

  • Wan-Move的点级运动控制精度显著优于传统方法。
  • 在用户研究中,其运动可控体验接近部分商用方案水平。
  • 同时保持了高画质和时序一致性。

更重要的是,这些能力是在不修改模型结构的前提下实现的。

七、项目与资源汇总




上一篇:pgvector IVFFlat索引原理解析:如何加速向量相似度搜索与AI应用
下一篇:AI写作工具平权时代:独立思考是创作者的最终护城河
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-17 14:39 , Processed in 0.110563 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表