
说实话,第一次听到“世界模型”这个词,我脑子里闪过的是小时候玩《模拟城市》的画面——你造个世界,然后看着小人在里面跑来跑去。结果最近研究了一下,发现AI圈说的“世界模型”根本不是一回事。最有趣的是,同样叫“世界模型”,李飞飞、杨立昆、黄仁勋这三位巨头说的完全是三种不同的东西。
这就像三个人都说自己在造“车”,结果一个造的是F1赛车,一个造的是坦克,还有一个造的是磁悬浮——虽然都叫交通工具,但根本不在一个次元。
今天我们就来捋一捋,这三条技术路线到底在搞什么,以及它们各自的前景如何。

黄仁勋:打造虚拟训练场的“基建狂魔”
先说说英伟达的掌门人黄仁勋,因为他走的路子最实在——他本质上在建造一个超级“赛车场”或“训练基地”。
黄仁勋的逻辑简单直接:机器人需要训练,训练需要海量数据。但让机器人在现实世界里摔打上亿次来学习走路,既不现实,成本也高得吓人。那怎么办?
答案就是:造一个高度逼真的虚拟世界,让机器人在里面尽情试错。
这就是英伟达的Cosmos平台的核心使命。它本质上是一个顶级的物理模拟器,模拟重力、摩擦力、碰撞,甚至光照反射。机器人可以在其中撞墙、跌倒、尝试,最终将习得的技能迁移到现实世界。
这套方案已经商业化,西门子、宝马、亚马逊等巨头都在使用,Cosmos工具链的下载量已达200万次。
- 优点:立竿见影,能解决实际问题,商业模式清晰,当下就能创造价值。
- 潜在担忧:这条路有点像“氪金玩家”的玩法——依赖强大的算力和仿真环境进行“暴力破解”。但问题是,当现实世界中机器人采集的数据越来越丰富时,这种纯粹的“虚拟训练”会不会逐渐变成一种过渡方案?
就像学车时用模拟器练手没问题,但想成为老司机,最终还得实际上路。

李飞飞:赋予AI“空间智能”之眼
如果说黄仁勋在打造“赛道”,那么李飞飞就在致力于给AI装上“眼睛”——而且是能深度理解三维空间的“慧眼”。
她的World Labs团队近期发布了Marble 1.1/Plus和Spark 2.0。这东西的神奇之处在于:你只需给出一张照片,它就能生成一个完整的、可探索的3D世界,你可以在其中自由走动,查看各个角落。
这不仅仅是简单的3D建模,它理解的是“空间关系”——杯子在桌上、椅子可供人坐下、门是推拉结构。李飞飞将这种能力称为“空间智能”。
更厉害的是Spark 2.0,它支持在浏览器中渲染包含上亿粒子的复杂3D场景,手机、VR设备都能流畅运行。
- 这条路线的优势:需求明确且强劲。VR/AR、建筑设计、游戏开发等领域都迫切需要这种技术。它也是目前看来商业化路径最清晰的——World Labs的估值已飙升至50亿美元(其在2026年2月完成了10亿美元融资)。
- 个人看法:这条路最“稳”,因为市场真实存在。但它可能面临一个天花板——它主要解决的是“感知和理解空间”,而非“理解物理因果”。就像一个视力极佳的人,却未必能推理出“推动杯子会导致其坠落”。

杨立昆:挑战主流,构建AI的“因果推理”大脑
最后是图灵奖得主杨立昆(Yann LeCun),他选择了一条最为“叛逆”也最具野心的道路。
他公开批评当前主流的大语言模型(LLM)只是高级的“复读机”,缺乏真正的理解。2026年3月,他的AMI Labs完成了10.3亿美元的巨额种子轮融资,估值达35亿美元,旨在打造他理想中的“世界模型”。
其技术核心是JEPA架构(联合嵌入预测架构)。简单来说,它的目标不是预测下一个像素或下一个词,而是预测 “接下来会发生什么”的抽象潜在状态。
举个例子:看到视频里球被抛起,JEPA模型不关心球的具体外观或像素变化,它学习到的是“球受重力影响终将落地”这一物理规律。
- 这条路的最大挑战:难度极高。杨立昆本人也承认,成熟的产品可能仍需数年时间。他挑战的是当前以Transformer架构为主的整个AI主流范式。
- 但直觉告诉我们:如果真正的通用人工智能(AGI)将会出现,它很可能会从这条道路上诞生。 因为人类智能的核心并非“预测下一个词”,而是“理解世界运作的基本规律”。你可以让大语言模型写诗,但问它“推一下这个杯子会怎样”,它并不真正理解,只是在依据训练数据“猜测”一个概率最高的答案。
杨立昆想要的,是让AI获得真正的“理解”能力。

人类智能的本质确实不是“预测下一个词”,而是“理解世界运行的规律”。当前的模型可以生成流畅文本,但当你追问“如果我推这个杯子,会发生什么”时,它其实并不真正懂得背后的物理原理,只是根据统计模式“猜”一个最可能的回答。杨立昆想做的,就是攻克这个根本问题。

三条路线,孰优孰劣?
讲到这里,你可能会问:这三条路,到底哪条才是对的?
我的答案是:它们并非简单的竞争关系,而是在解决“让AI理解世界”这一宏大问题的不同层面。
- 英伟达解决的是“在哪里练”——提供高度拟真的虚拟训练场。
- 李飞飞解决的是“看到什么”——赋予AI精确的空间感知与理解能力。
- 杨立昆解决的是“怎么想”——让AI学会进行因果推理与规律抽象。
这就像建造一栋大厦:英伟达在夯实地基与搭建施工环境,李飞飞在构筑主体框架与外墙,而杨立昆则在设计让大厦“智能”运转的内核系统。三者缺一不可。
但若论个人对短期应用与长期潜力的判断,我目前的排序是:
短期看李飞飞,中期看英伟达,长期看杨立昆。
李飞飞的路线产品化最快,市场需求明确;英伟达的基建最为扎实,是当下不可或缺的“卖水人”;但杨立昆的路线如果最终走通,才可能触及真正“智能”的核心。
最后的思考
写到这里,想起一个细节:杨立昆离开Meta,据说部分原因是与公司在AI发展路线上存在根本分歧——Meta押注大语言模型,而他则认为那是条死胡同。随后,他带着10亿美元的融资,去赌一个当时“鲜有人看好”的方向。
这不禁让人联想到深度学习爆发前夕,杰弗里·辛顿(同样也是图灵奖得主)在角落默默耕耘神经网络三十年的光景。当时多数人都认为那是条死胡同,结果呢?
所以,我的观点是:当前的AI领域似乎过分内卷于“快钱”——比拼谁产品出得快、谁API调用量大、谁融资额高。但“世界模型”这件关乎AI未来形态的大事,或许真的需要有人去啃最硬的骨头。
杨立昆的路线目前看起来最为遥远和艰难,但如果十年后我们回望,或许正是这条“最难走的路”,最终定义了人工智能的走向。
毕竟,让AI真正“理解”我们所处的这个世界,而不仅仅是学会“预测下一个词”,才是我们最初对人工智能怀有的那份想象,不是吗?

编辑:根据公开资料整理
来源:36氪、量子位等综合资讯
关于AI前沿技术的更多深度讨论,欢迎在云栈社区的开发者板块交流。