
近期,Runway相继发布了GWM Worlds和GWM Robotics,将视频生成技术进一步推向可交互的“世界模拟”范式。这一动向也让关于“世界模型”的讨论再次成为焦点:它究竟是一个面向创作与交互的界面(Interface),一个用于训练与评测的模拟器(Simulator),还是一种面向推理与决策的认知框架?
从强化学习分支到通用演化建模,世界模型经历了怎样的转变?
-
如今,世界模型已被业界视为与大型语言模型(LLM)同等级别的通用人工智能(AGI)技术路线。然而,若将时间拨回2024年初,世界模型的定义则相对收敛,更多地局限于强化学习的语境中。
- 彼时的观点认为,世界模型是智能体的“内部环境模型”,其本质是一个函数,输入当前状态和某个动作,输出对下一状态的预测。
- 它使得智能体能够在内部进行“想象”和模拟,先预测动作后果再做决策,从而将大量试错成本转移到模型内部推演中,以提高样本效率和规划能力。
-
同一时期也存在更为工程化的拆解,将世界模型定义为三类能力的组合:将高维感知压缩为可用表征、在时间维度上预测未来,以及利用预测结果进行规划和决策。
- 在这一框架下,Transformer架构、自监督学习,以及将推理纳入世界建模的讨论开始出现,但整体上仍是强化学习语境的延伸。
-
进入2024年,业界对世界模型的理解开始向外扩展。有观点将其从强化学习中“针对具体子任务的动态模型”,外推到更通用的世界演化建模,并认为存在一条“语言生成→图像生成→3D生成→世界生成(同时具备时序与空间序建模)”的趋势链条。
-
但与此同时,世界模型的概念边界也变得更加模糊。表征形式究竟是视频序列还是3D表示、物理规律如何融入表征、输入关系如何组织等,都被认为是尚未收敛的开放问题。
-
同年2月,OpenAI将其视频生成模型Sora称为“世界模拟器”,强调这类模型在像素空间中学习现实世界的三维结构与物理规律,并能够模拟世界的演化过程。
-
几乎在同一时间,LeCun团队推出了V-JEPA模型,其强调世界模型的目标不是去补全每一个缺失的像素,而是在抽象表示空间中预测被遮蔽掉的视频片段,允许丢弃不可预测的细节信息以换取更高的训练效率。
- 该技术路线也更强调自监督学习与使用未标注数据进行预训练,标签仅在后期进行任务微调时使用。
-
因此,当时的核心议题已不再是“要不要做世界模型”,而是“世界模型应如何建模”。后者的争议焦点在于:究竟应该从像素层面逐步抽象,还是直接在抽象空间中跳过像素细节。
- 支持视频预测路线的人士更倾向于“生成质量足够高就意味着掌握了部分物理规律”的观点,而批评者则强调“像素一致性并不等同于因果理解”。
-
也有研究者认为,当前的两条主流路线都只学到了部分物理规律,距离“完整的世界模型”尚有差距。他们提出,构成“连贯世界模型”还需要三个要素:孤立对象的表征、跨时空的先验变化规律,以及康德范畴。
- 分析指出,Sora的局限性在于忽略了先验变化规律和康德范畴,而这些缺陷无法通过简单地扩大训练规模来弥补。V-JEPA则学习了与上下文相关的先验变化规律,但依然未能理解并融入康德的范畴。
界面、模拟器还是认知框架?世界模型的定义依旧模糊
-
进入2025年,世界模型的地位被进一步提升到与LLM同级。有分析认为,Google DeepMind、Meta和Nvidia等巨头都在从纯粹的LLM路线转向世界模型,目标是实现“物理AI+超级智能”,部分原因是LLM的性能提升速度有所放缓。
-
世界模型与现有生成式人工智能的关键差异在于,前者的目标是在内部构建一个包含物理、时间、空间维度的环境表征,用于规划和决策,可广泛应用于无人机、自动驾驶、机器人等领域。
- 有外媒评论指出,当前的主流LLM更像是一个“启发式方法拼盘”,距离真正的世界模型还很遥远。
-
与更容易快速迭代和短期落地的视觉-语言-动作(VLA)路线相比,世界模型代表了一种更底层的认知方式,它强调对物理规律和空间关系的理解,更适合技术的长期演进。
-
但发展到当前阶段,世界模型出现了“概念同名但内核分裂”的现象:它可以指代系统内部用于推理的潜在状态,也可以指代用于训练智能体的、类游戏环境的模拟器,甚至是任何能够生成可探索3D场景的内容管线。
- 世界模型领域的融资热潮进一步放大了这种歧义。只要为产品贴上“世界模型”的标签,往往就很少有人继续深究它是否真的支持预测、规划和泛化等核心能力。
-
在Entropy Town于2025年11月发布的一篇分析文章中,作者将纷繁复杂的世界模型技术重新划分为三条路径:作为界面(Interface)、作为模拟器(Simulator)和作为认知框架(Cognition)。

|