5455 积分	0 好友	739 主题

[Python] 中科院联合CreateAI提出NeoVerse，基于单目视频的4D世界模型实现轨迹生成

发表于 2026-2-23 02:13:19 | 查看: 122| 回复: 0

当下，许多致力于“能动”的AI模型都希望将真实世界转化为可复用的数字世界，构建能够动态变化的3D场景并生成连贯的画面。然而，许多现有的4D世界模型依赖于昂贵的多视角数据采集或复杂的预处理流程，这大大限制了其大规模应用和推广的潜力。

近期，中国科学院自动化研究所与CreateAI的研究团队提出了一个名为 NeoVerse 的新型4D世界模型。它利用海量的开放场景单目视频进行训练，为构建一个可扩展的4D世界模型开辟了新的路径。NeoVerse能够进行4D重建，生成遵循特定相机轨迹的新视频，并可以无缝对接丰富的下游应用。

NeoVerse系统流程：基于动态4D高斯的视频生成

论文信息

论文标题页：NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

传统的4D世界建模方法通常面临可扩展性瓶颈，其原因要么是依赖昂贵、专用的多视角4D数据，要么是训练前的预处理流程过于繁琐。NeoVerse的核心理念在于，构建一个能够直接扩展到海量、真实世界单目视频的训练流程。

具体来说，NeoVerse主要包含以下几个关键创新点：

无需相机姿态的前馈式4D重建：模型无需预先知道视频的精确相机参数，就能直接从单目视频中重建出动态的4D高斯表示。
在线单目退化模式模拟：在训练过程中，模型会动态模拟从单目视角观察3D场景时可能出现的各种“退化”渲染结果（如遮挡、深度信息不全等），并将这些作为条件输入。
基于扩散模型的视频生成：利用一个强大的视频扩散Transformer模型，以前述的退化渲染为条件，生成高质量、符合物理规律的新视角视频。

NeoVerse方法框架图

如上图所示，NeoVerse的框架包含重建与生成两部分。重建模块从输入视频中提取动态4D高斯表示，并渲染出多种退化视图。生成模块则以这些退化视图和文本描述为条件，通过一个集成了ControlNet思想的扩散模型，最终合成出新颖视角的视频。

研究团队在具有挑战性的实拍视频上测试了NeoVerse的轨迹视频生成能力。如下图所示，在与现有方法（如ReCamMaster）的对比中，NeoVerse在实现大幅度相机运动控制（如“向左平移”、“向右移动”）时，生成的画面质量更高，伪影更少（黄色框标出部分）。

NeoVerse与ReCamMaster在实拍视频上的生成效果对比

此外，NeoVerse在推理速度上也有出色表现。通过与高效的LoRA（Low-Rank Adaptation）技术结合，模型可以在单个A800 GPU上实现快速推理。下表展示了不同配置下的性能对比，NeoVerse在多项主观一致性、图像质量指标上均达到了先进水平。

NeoVerse与其他方法在多项指标上的性能对比表格

NeoVerse通过克服对专用数据的依赖，成功构建了一个基于真实世界单目视频的可扩展4D世界模型训练流程。这使其泛化能力和通用性得到了显著增强，能够应用于包括视频编辑、视图合成、虚拟现实在内的多种下游场景。大量实验证明，NeoVerse在4D重建和视频生成任务上均取得了先进的性能。

当然，该模型也存在一定的局限性。例如，它需要输入数据包含正确的底层3D几何信息，因此无法直接应用于纯粹的2D卡通等内容。同时，受限于训练资源，当前使用的100万视频片段数据集规模仍有提升空间，为未来更大规模的训练留下了余地。

对这类前沿的人工智能模型和开源实战项目感兴趣的朋友，欢迎关注云栈社区的更多技术动态与深度讨论。