找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3484

积分

0

好友

478

主题
发表于 18 小时前 | 查看: 2| 回复: 0

当下,许多致力于“能动”的AI模型都希望将真实世界转化为可复用的数字世界,构建能够动态变化的3D场景并生成连贯的画面。然而,许多现有的4D世界模型依赖于昂贵的多视角数据采集或复杂的预处理流程,这大大限制了其大规模应用和推广的潜力。

近期,中国科学院自动化研究所与CreateAI的研究团队提出了一个名为 NeoVerse 的新型4D世界模型。它利用海量的开放场景单目视频进行训练,为构建一个可扩展的4D世界模型开辟了新的路径。NeoVerse能够进行4D重建,生成遵循特定相机轨迹的新视频,并可以无缝对接丰富的下游应用。

NeoVerse系统流程:基于动态4D高斯的视频生成

论文信息

论文标题页:NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

方法与创新

传统的4D世界建模方法通常面临可扩展性瓶颈,其原因要么是依赖昂贵、专用的多视角4D数据,要么是训练前的预处理流程过于繁琐。NeoVerse的核心理念在于,构建一个能够直接扩展到海量、真实世界单目视频的训练流程。

具体来说,NeoVerse主要包含以下几个关键创新点:

  1. 无需相机姿态的前馈式4D重建:模型无需预先知道视频的精确相机参数,就能直接从单目视频中重建出动态的4D高斯表示。
  2. 在线单目退化模式模拟:在训练过程中,模型会动态模拟从单目视角观察3D场景时可能出现的各种“退化”渲染结果(如遮挡、深度信息不全等),并将这些作为条件输入。
  3. 基于扩散模型的视频生成:利用一个强大的视频扩散Transformer模型,以前述的退化渲染为条件,生成高质量、符合物理规律的新视角视频。

NeoVerse方法框架图

如上图所示,NeoVerse的框架包含重建与生成两部分。重建模块从输入视频中提取动态4D高斯表示,并渲染出多种退化视图。生成模块则以这些退化视图和文本描述为条件,通过一个集成了ControlNet思想的扩散模型,最终合成出新颖视角的视频。

实验结果

研究团队在具有挑战性的实拍视频上测试了NeoVerse的轨迹视频生成能力。如下图所示,在与现有方法(如ReCamMaster)的对比中,NeoVerse在实现大幅度相机运动控制(如“向左平移”、“向右移动”)时,生成的画面质量更高,伪影更少(黄色框标出部分)。

NeoVerse与ReCamMaster在实拍视频上的生成效果对比

此外,NeoVerse在推理速度上也有出色表现。通过与高效的LoRA(Low-Rank Adaptation)技术结合,模型可以在单个A800 GPU上实现快速推理。下表展示了不同配置下的性能对比,NeoVerse在多项主观一致性、图像质量指标上均达到了先进水平。

NeoVerse与其他方法在多项指标上的性能对比表格

结论与展望

NeoVerse通过克服对专用数据的依赖,成功构建了一个基于真实世界单目视频的可扩展4D世界模型训练流程。这使其泛化能力和通用性得到了显著增强,能够应用于包括视频编辑、视图合成、虚拟现实在内的多种下游场景。大量实验证明,NeoVerse在4D重建和视频生成任务上均取得了先进的性能。

当然,该模型也存在一定的局限性。例如,它需要输入数据包含正确的底层3D几何信息,因此无法直接应用于纯粹的2D卡通等内容。同时,受限于训练资源,当前使用的100万视频片段数据集规模仍有提升空间,为未来更大规模的训练留下了余地。

对这类前沿的人工智能模型和开源实战项目感兴趣的朋友,欢迎关注云栈社区的更多技术动态与深度讨论。




上一篇:华为新机爆料汇总:2K档中端机配8000mAh电池,Pura系列影像升级与阔屏直板机立项
下一篇:iPhone 18 Pro深红色测试中,首款折叠屏iPhone或仅提供经典配色
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-23 21:02 , Processed in 0.430426 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表