找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

972

积分

0

好友

138

主题
发表于 前天 13:35 | 查看: 7| 回复: 0

不仅能“听懂”物体的颜色纹理,还能“理解”深度图、人体姿态、运动轨迹……一个统一多模态多任务的视频生成模型来了。

来自港科大、港中文、清华大学和快手可灵的研究团队,提出了全新的视觉框架——UnityVideo。它通过统一训练多种视觉模态(如深度图、光流、骨骼、分割掩码等),让模型更懂物理世界规律,生成的视频更真实、更可控。该模型不仅生成质量高,还实现了零样本泛化,对于从未见过的物体或场景,也能生成合理结果。

从文本大模型到视觉大模型

回顾大语言模型(LLMs)的发展,GPT、Claude等模型的强大泛化与推理能力,很大程度上得益于它们统一训练了多种文本子模态(如自然语言、代码、数学表达式)。这种多模态统一训练促成了跨领域的知识迁移。

那么,视觉领域是否也存在同样的机会?

现有的视频生成模型虽在合成质量上进步显著,但大多仍局限于单一的RGB视频学习。这就像只用纯文本训练语言模型,限制了模型对物理世界的全面理解。但如果一个模型能同时理解物体的颜色、深度、运动轨迹、身体姿态、物体分割等多维度信息,它对世界的理解将更加深刻。

这正是UnityVideo的核心动机。一个简单的实验揭示了其潜力:当模型同时学习多种视觉模态时,它在RGB视频生成任务上的收敛速度显著加快,最终性能也明显提升。与单独训练RGB视频相比,统一多模态多任务训练能更快达到更低的最终损失。这是因为不同的视觉模态提供了互补的监督信号:

  • 实例分割:帮助模型区分不同类别的物体。
  • DensePose:让模型理解人体的部位结构。
  • 骨架信息:编码精细的运动模式。
  • 深度图:揭示场景的三维几何结构。
  • 光流:捕捉像素级的运动信息。

当这些模态在同一个模型中联合学习时,它们之间会产生相互促进的效果,模型开始更接近真正“理解”物理世界的运作规律。这种统一训练范式不仅带来了性能改进,还增强了模型对物理现象(如光的折射、物体运动)的建模能力,并展现出强大的零样本泛化能力。

UnityVideo的核心技术创新

具体来说,UnityVideo在以下三个方面实现了突破:

1. 动态任务路由:三种训练范式的无缝统一

传统模型通常针对单一任务训练。UnityVideo则在单个架构中同时支持三种范式:

  • 条件生成:从辅助模态(如深度图)生成RGB视频。
  • 模态估计:从RGB视频估计辅助模态。
  • 联合生成:从文本同时生成RGB视频和辅助模态。

其关键在于动态噪声调度策略:每个训练迭代中,模型会随机选择一种训练模式,并对相应的token施加不同的噪声。这种动态切换避免了传统阶段式训练中的灾难性遗忘,使三种目标能在同一优化过程中和谐共存。

2. 模态切换器:架构级别的模态区分

为让模型明确区分不同模态信号,UnityVideo提出了两个互补设计:

  • 上下文学习器:通过为不同模态注入特定文本提示(如“depth map”),让模型在语义层面理解当前处理的模态。这带来了强大的泛化能力。
  • 模态自适应切换器:在架构层面,为每种模态学习独立的调制参数(可学习的嵌入列表),这些参数会调制DiT块中的AdaLN-Zero参数。实现了即插即用的模态选择能力——推理时只需切换模态嵌入,就能生成或估计不同的模态。
3. 渐进式课程学习策略

UnityVideo采用两阶段课程学习策略,以优化训练过程:

  • 第一阶段:在单人场景数据上,训练像素对齐的模态(光流、深度、DensePose),建立扎实的空间对应关系基础。
  • 第二阶段:引入所有模态和多样化场景数据,使模型能够理解全部五种模态,并支持对未见模态组合的鲁棒零样本推理。

数据集支撑:OpenUni与UniBench

为了支撑统一训练范式,研究团队构建了OpenUni数据集,包含130万个多模态视频样本,涵盖单人、双人及多种通用场景。训练时通过均衡batch采样,防止模型对特定数据集或模态过拟合。同时,团队还构建了UniBench评估基准,包含3万个样本,为公平、全面的性能评估提供了坚实基础。这类大规模、高质量的数据集构建是深度学习模型成功的关键前提之一。

实验结果:全方位的性能提升

多任务性能对比

在全面的定量对比中,UnityVideo在文本生成视频、可控生成和模态估计三大类任务上都取得了优异表现:

  • 文本生成视频:在所有指标上均获最佳结果。
  • 可控生成:在背景一致性、整体一致性和动态程度上表现卓越。
  • 模态估计:在视频分割和深度估计任务上,显著优于专门的单任务模型。
定性对比与泛化能力

定性结果直观展示了UnityVideo的优势:

  • 物理现象理解:能更准确地表现物理定律,如水中光线折射。
  • 可控生成质量:更忠实地遵循深度引导,同时保持整体视频质量。
  • 模态估计精度:产生更精细的边缘细节和准确的3D点云。
  • 泛化能力:展现出强大的组合推理能力,例如在“two persons”分割任务上训练后,能自然泛化到“two objects”场景。
消融实验验证设计有效性

消融实验证实了多模态互补性、多任务训练的必要性以及上下文学习器与模态切换器架构设计的有效性。结合使用时能获得显著的额外性能增益。

用户研究:人类感知的胜利

在用户研究中,UnityVideo在物理质量、语义质量和整体偏好三个维度上均获得最高评分,其物理质量得分显著超过其他商业模型。这说明统一训练带来的世界理解提升是人类可感知的。

总结与展望

UnityVideo的成功验证了一个深刻理念:真正的世界理解需要多维度的感知整合。它通过统一多种视觉模态和任务,让模型获得了更深层的世界理解,体现在更快的收敛、更好的定量指标、对物理规律的准确建模以及强大的泛化能力上。

这项工作为视频生成领域开辟了新路径:

  1. 规模不是唯一答案:组织和利用多样化的学习信号同样关键。
  2. 任务整合带来涌现能力:视觉模型可通过统一多模态任务涌现更强的世界理解。
  3. 架构设计至关重要:需要精心设计机制让不同模态真正互相促进。
  4. 评估需要多维度:跨任务、跨模态的泛化能力和深层理解更为关键。

尽管仍有提升空间(如VAE偶尔引入重建伪影),但UnityVideo无疑为构建真正理解物理世界的视觉大模型奠定了坚实基础。从统一文本子模态的LLMs到统一视觉子模态的UnityVideo,我们看到了AI向通用智能演进的清晰路径:建立统一的学习范式,让不同维度的知识协同进化。

论文链接:https://arxiv.org/abs/2512.07831
代码链接:https://github.com/dvlab-research/UnityVideo
项目主页:https://jackailab.github.io/Projects/UnityVideo




上一篇:蚂蚁Agentar-SQL开源:NL2SQL霸榜BIRD-Bench的产业级AI解决方案
下一篇:AI驱动存储新格局:三星、SK海力士、美光DRAM产能战略博弈解析
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-17 12:52 , Processed in 0.103770 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表