世界模型致力于让AI系统能够以连贯、时序一致的方式去表征、生成动态环境并与之交互。尽管当前的视频生成模型在视觉质量上已令人印象深刻,但在实时交互、长期一致性以及对动态场景的持久记忆方面仍有局限,这阻碍了其真正演化为实用的世界模型。
中国电信人工智能研究院李学龙教授团队提出了一种名为 TeleWorld 的实时多模态4D世界模型。该模型在一个闭环系统中,将视频生成、动态场景重建与长期世界记忆统一起来。TeleWorld 是一个拥有180亿参数的大模型,能够以每秒8帧的速率实时生成高分辨率视频(960×1760),并在衡量世界生成能力的权威基准 WorldScore 中位列榜首。

核心方法
1. “生成-重建-引导”循环框架
研究团队提出了一个用于统一四维时空建模的动态“生成-重建-引导”闭环框架。该框架构建了一个实时、原生的四维世界表征,它会随着每个新生成的视频片段持续更新,确保与不断演化的视觉内容完全同步。

图1:TeleWorld结构。该模型首先依据用户预定义的指令生成初始视频集,随后进入迭代循环。在每一轮迭代中,系统处理用户的实时输入指令,对上一轮输出的视频进行重建,并依据输入相机姿态进行渲染。渲染结果将作为引导信息,以指导当前轮次的视频生成与运动合成。此过程循环重复执行。
在此循环中,“重建”指从已生成帧中恢复出一致性四维场景表征的过程;而“引导”则指利用重建的四维场景与用户键盘指令共同指导下一轮视频生成。生成与重建步骤实时进行,引导与生成之间的延迟极低。
2. 长记忆自回归视频生成
(1)微规划与宏规划
研究团队将“宏微规划”方法引入TeleWorld,这是一种统一的规划方法,包含微规划与宏规划两个关键组成部分。

图2:宏微规划框架由两个层次构成:(1) 微规划,在每个局部片段内生成一系列帧以约束误差传播;(2) 宏规划,通过自回归链连接各片段——每步的输出帧将引导后续预测,从而确保长程时间一致性。绿色标记的三个预测帧对应初始预规划帧集合,这些关键帧在整个视频序列中起到维持长期记忆与稳定性的作用。
-
微规划:通过从初始帧 x_s^1 预测一组稀疏的关键帧 {x_s^{t_a}, x_s^{t_b}, x_s^{t_c}},为第 s 个片段构建短期叙事。这些预规划帧作为后续合成的稳定锚点,其时间戳设定为 t_a(早期邻近帧),t_b(中点帧)和 t_c(片段结束帧)。该过程形式化表述如下:
p(P_M_s | x_s^1) = p(x_s^{t_a}, x_s^{t_b}, x_s^{t_c} | x_s^1)
-
宏规划:该方法通过跨片段顺序链接重叠的微规划来构建全局叙事线。给定一个长度为 T、被划分为 S 个片段的完整视频,令 x_s^1 为第 s 个片段的初始帧。由宏规划产生的规划帧集合记为 P_M+。该过程定义如下:
p(P_M+ | x_1^1) = ∏_{s=1}^S p(P_Ms | x_s^1), x_{s+1}^1 := x_s^{t_c}, P_M+ := ⋃_{s=1}^S P_Ms
通过分层链接片段,宏规划将逐帧的自回归依赖关系转换为稀疏的片段级规划步骤序列。随后,通过对跨片段的锚定关键帧进行在线4D重建,将这些记忆锚定在一个连贯的时空场内。
模型采用了一种抗漂移的重编码与解码策略:从当前片段的初始与末端规划标记拼接重建一个短视频片段,从而稳定片段间的过渡。为确保解码时的时间连续性,末端标记被复制并插入以形成连续的潜在序列。第二份副本经重编码后的潜在表示即作为下一片段的初始条件。
(2)基于MMPL的内容填充
微规划提供三种关键帧:早期帧 x_s^{t_a}、中点帧 x_s^{t_b} 与终止帧 x_s^{t_c}。内容填充按两个顺序阶段执行:
- 第一阶段:以初始帧与早期规划帧作为起始,以中点规划帧作为结束,填充第一个子片段。
- 第二阶段:将以中点帧为止的所有帧作为新的起始,以终止帧作为结束,进而生成剩余内容。
该过程可形式化表达如下:
p(C_s | P_M_s) = p(x_s^{t_a+1:t_b-1} | x_s^{1:t_a}, x_s^{t_b}) · p(x_s^{t_b+1:t_c-1} | x_s^{1:t_b}, x_s^{t_c})
每个子片段内的内容填充仅取决于其对应的规划帧,这使得多个子片段在其内部规划帧准备就绪后即可并行优化。通过将片段级的优化任务分布至多个GPU,实现了并发执行,从而显著加速了长视频的合成。
3. 实时4D重建
(1)关键帧重建
TeleWorld模型仅需对稀疏的预规划帧集合 P_M+ 进行4D重建。每个视频片段的开始、中间和结束部分将被用于记录信息到四维时空场中。在内容填充过程中,中间的运动将基于这些记录的线索进行补充。
(2)运动物体分割
模型采用跨帧的帧间滑动窗口策略:K = 3。在此窗口内,并跨越三个层集合 L = {l_shallow, l_mid, l_deep}(分别对应不同的层范围),其中 l_shallow 捕获语义显著性,l_mid 反映运动不稳定性,l_deep 提供空间先验以抑制离群值。
最终,通过阈值化获得每帧的动态掩码:M_d^t = 1_{S_d^t > τ},随后进行特征聚类以细化。框架中还实施了网络级的早期掩码策略,用于4D重建与堆叠。静态场景元素被合并并逐步扩展,而稀疏的动态组件则随时间分别渲染。
4. 引导机制
(1)键盘控制
研究团队采用四个WASD键与方向键来模拟移动与视角变化,其映射关系如下所示:

这些输入被相应地映射为相机位姿参数,并以条件信号的形式引导模型生成。
(2)视图条件引导
对处理后的键盘输入进行编码,沿帧维度将引导视频token x_s 与目标视频token x_t 进行拼接,其中 x_i 为 Transformer 模型DiT的输入:
x_s = patchify(z_s), x_t = patchify(z_t) x_i = [x_s, x_t]_frame-dim
5. 分布匹配蒸馏
基于标准自强制流程,分布匹配蒸馏可直接应用于宏微规划之上,并部署于TeleWorld框架内。
结合并行化解码,最终系统实现了显著的推理加速:在NVIDIA H100 GPU上评估,TeleWorld-1.3B模型生成长视频的持续吞吐量超过32 FPS,TeleWorld-18B模型则达到8 FPS。
采用Ray进行模型权重的多GPU分布式存储,从而解决训练设置需同时协调三个扩散模型——自回归生成器、判别器与教师模型——导致所有组件无法同时驻留于单个80GB高带宽内存GPU中的限制。
研究团队设计了一种新颖的流水线训练调度方案,通过重叠生成器、判别器与教师模型的计算过程,从而最小化GPU空闲时间(即流水线气泡)。生成器与判别器步骤的执行调度如图3所示。

图3:分布匹配蒸馏的流水线执行调度方案。(a) 生成器步骤流水线(包含7个微批次)。单元格长度表示执行时间。判别器与教师模型并行工作,为简化图示将其单元格合并,其单元格长度表示两者执行时间的最大值。图上半部分为非流水线基线方案,会产生大量GPU气泡(即GPU空闲时间)。下半部分为提出的流水线调度方案。在稳定阶段,微批次 n 的生成器反向阶段与微批次 n+1 的生成器前向阶段,同微批次 n-1 的判别器/教师前向阶段并发执行。(b) 判别器步骤流水线(包含4个微批次)。
6. 流式与调度生成及在线视频超分辨率
(1)调度生成
研究团队提出一种自适应工作负载调度策略,该策略动态地安排微规划、宏规划与内容填充的执行顺序,以最大化并行度。
举例而言,设 t_a = 1, t_b = 8, t_c = 15,当前片段的规划帧 x_s^{t_c} 将立即作为下一片段的初始帧 x_{s+1}^1。因此,下一片段可在当前片段仍在填充其中间帧(例如 x_s^{t_b})时,开始其微规划。这种分段独立性自然实现了片段并行生成,其形式化表达如下所示:
Segment s: x_s^{t_a+1:t_b-1} ~ p_θ(x | x_s^1, x_s^{t_a}, x_s^{t_b}), Segment s+1: {x_{s+1}^{t_a}, x_{s+1}^{t_b}, x_s^{t_c}} ~ p_θ(x | x_{s+1}^1), x_{s+1}^1 ∈ {x_s^{t_b}, x_s^{t_c}}
为保持实时实际生成,采用如下最大吞吐量预测策略:使用最小内存峰值预测策略尽可能降低延迟。当选用 t_a = 1 作为 x_s^1 时,中间帧 x_s^{t_b} 被跳过,从而绕过了时间上下文最深、生成延迟最高的区域。
任何即时用户输入操作仅会在三个潜在块之后被渲染,导致约一秒的反馈延迟。因此,当前观察到的世界输出实际上对应于用户输入前一秒所捕获的预缓冲变化。
(2)流式VAE
基于StreamDiffusionV2的设计思想,研究团队提出了一种支持流式处理的VAE变体,从而实现实时流式视频生成。流式VAE 并非一次性编码整个视频序列,而是对短而连续的视频块(通常为4帧)进行处理。
流式VAE的架构在其三维卷积层中采用了中间特征的策略性缓存机制。当每个新帧块输入模型时,网络会复用从前一帧块计算得到的时间相关特征,从而在无需重新编码长时历史的情况下,保持跨块边界的时间连贯性。这样的设计显著减少了冗余计算与内存开销,实现了高效的增量式编码与解码。
(3)视频超分辨率
模型引入了一种受FlashVSR启发的流式超分辨率模块,该模块负责将流式VAE解码的隐式表征实时上采样为高分辨率视频帧。
从FlashVSR借鉴的一项关键创新是其局部约束稀疏注意力机制。该机制将自注意力运算限制在局部时空窗口内,大幅降低了通常困扰视频超分辨率模型的计算复杂度。
此外,TeleWorld模型利用了FlashVSR的轻量级条件解码器:解码器的上采样过程以从流式VAE输出中提取的特征为条件,在确保高保真结果的同时维持较低的计算开销。
关键在于,该超分辨率模块被设计为以完全流式的方式与流式VAE协同工作。它处理与VAE输出流对齐的短视频块(例如5帧),并在每个块可用时逐步应用超分辨率。
总而言之,通过集成调度生成、流式VAE与视频超分辨率技术,该系统使得TeleWorld-18B模型能够在四张NVIDIA H100 GPU的配置下实现稳定的8 FPS性能,并生成高质量的960×1760分辨率视频。
评估与分析
1. 多模态数据集构建
为支持大规模训练与统一评估,研究团队构建了TeleWorld-500K数据集,这是一个专门针对可控相机运动与动态物体的、带有四维标注的视频精选数据集。
2. 定量分析
WorldScore基准 是目前衡量“世界生成”能力最全面的测评协议之一。WorldScore评估模型是否能够在不同视角、场景转换及时间演进中构建并维持一个一致的世界。该基准包含静态与动态两种设定,以及一系列丰富的指标,用于评估可控性、一致性、感知质量与运动行为。
将TeleWorld与涵盖三维、四维及视频生成方法的23个基线模型进行比较,如表1所示。

表1:WorldScore基准定量比较。该表展示了TeleWorld与代表性基线模型在官方评估协议下的静态与动态世界生成排行榜分数,以及相应的可控性与一致性指标。所有指标均为数值越高代表性能越优。
TeleWorld在两项综合指标上均取得了最优性能,其WS-Static得分为78.23,WS-Dynamic得分为66.73。次优模型在静态场景下得分为77.62,在动态场景下得分为59.12。因此,TeleWorld在静态世界生成上优于最强基线0.61分,在动态世界生成上优于最强基线7.61分。值得注意的是,TeleWorld是唯一同时在静态与动态两个赛道排名第一的方法。
在可控性方面,TeleWorld在相机控制、物体控制与内容对齐三个维度均取得均衡且优异的分数。其出色的物体控制得分尤其表明,TeleWorld能够维持一个隐式且持久的世界状态,在长序列中保持物体身份与布局的一致性,这与其生成-重建的闭环设计理念相符。
TeleWorld在结构与感知一致性方面同样表现卓越,其三维一致性、光度一致性、风格一致性与主观质量得分均名列前茅。这些结果反映出,生成内容的行为类似于一个连贯内部四维表征的投影——这与本框架捕获并强化全局时空结构、同时保持视觉保真度的能力相一致。
动态性能进一步凸显了TeleWorld的优势。其WorldScore-动态得分可分解为强劲的运动准确度、适中的运动幅度以及优异的运动平滑度。这一特征表明其生成的运动合理、有序且无时间不连续性,避免了基线系统中常见的运动不足或不稳定问题。这种稳定性源于TeleWorld利用学习到的内部状态来引导时间演化,而非仅在局部近似变化。
总而言之,实验结果表明TeleWorld提供了均衡、稳定且可扩展的世界生成能力。它证明了统一模型能够联合优化可控性、一致性、感知保真度与动态行为。在动态分数上的显著提升,结合其结构与语义的稳定性,表明TeleWorld特别适合长时程、多条件的生成任务。这些结果确立了TeleWorld作为未来研究方向的一个有力候选,这些方向涉及长视频合成、可控模拟、交互式环境以及需要连贯时空演化而非孤立视觉质量的世界建模任务。
TeleWorld的成功展示了将生成模型与持续更新的世界记忆相结合的强大潜力,为迈向更智能、更交互的人工智能系统提供了新的思路。对于希望深入了解前沿AI模型架构与技术细节的开发者,欢迎在云栈社区交流探讨。