云栈社区»论坛 › 开发者广场「Dev Plaza」 › 世界模型三问：因果、规划与泛化，可组合建模的探索之路 ...

发回帖发新帖

2622 积分	0 好友	360 主题

发消息

世界模型三问：因果、规划与泛化，可组合建模的探索之路

发表于 2025-12-15 05:50:46 | 查看: 59| 回复: 0

强化学习智能体在像素环境中可实现游戏高分刷新，却难以应对线索缺失的复杂决策场景；生成模型虽能生成光影逼真的场景，却无法解析“积木倾塌”背后的基础物理逻辑。人工智能对真实世界的深度理解，始终受困于以“理解”为核心的“世界模型”这道门槛。

如今任职于哈佛大学Kempner研究所与计算机科学系的助理教授Yilun Du正是该领域的核心探索者之一。凭借MIT博士毕业的扎实理论基础，他一直致力于通过生成式人工智能构建具备推理与规划能力的世界模型。他开创了用生成模型进行决策规划的新范式，并提出基于可组合性和“模型社会”的下一代世界模型蓝图。

在OpenAI、FAIR、DeepMind等诸多全球顶尖AI实验室的经历，让他对行业前沿动态有了多维度的深刻洞察。与此同时，Yilun Du也始终坚持着能量基模型的研究方向，为破解世界模型困境提供了关键思路。他认为，EBMs能超越传统模型的浅层拟合，挖掘底层能量逻辑，与世界模型的需求高度契合。复杂世界的运行，或许也遵循着简洁而深刻的底层规则。

若能构建可灵活组合、动态适配这些规则的模型，就能突破训练数据的局限，触达数据集中从未出现过的新场景。而打开世界模型的“理解之门”，还需跨越三座关键关卡：模型需具备因果性与物理规律、需支持良好规划、并能泛化到未见过的事物。 这是模型从实验室走向真实场景的关键，也是可组合建模的核心价值。

学术起点与研究方向演进

对生物的兴趣是我的重要起点，让我对如何创造智能产生浓厚兴趣。

问：在求学和工作过程中，您认为有哪些关键经历对您的学术方向产生了影响？

Yilun Du：第一个关键经历，是从小便接触生物相关知识。那时我参加过生物奥林匹克竞赛，由此对“如何创造智能”产生了浓厚兴趣，所以高中阶段对生物的热忱，成了我探索智能领域的重要起点。进入本科后，我关注到DeepMind及其AlphaGo的相关成果。这些突破让我真切感受到“创造人工智能”这一方向的独特魅力。

本科第三年，我在OpenAI度过了9个月，期间主要围绕能量基模型和人工智能模型开展研究。这段经历同样意义非凡，也正是从这时起，我萌生了攻读博士、投身科研的想法。

问：您在OpenAI、FAIR、DeepMind这些顶尖实验室都有过研究经历，这些环境在研究风格上有什么不同吗？

Yilun Du：差异较大。2018年我在OpenAI时，它规模很小，总共只有二十几个人。那时候80%的人在做强化学习，20%的人在做各种深度生成模型，比如语言模型或者我们当时在做的能量基模型。不过那时候OpenAI的人们特别专注，大家都非常相信自己所做的事情。

而FAIR、DeepMind等公司规模则大得多，整体氛围会轻松一些，大家对科研的关注点也有所不同。在人工智能领域，OpenAI的研究方向和硅谷的关联更紧密，大家特别想做出通用人工智能相关的成果。但DeepMind的研究更偏向科研性质，研究方向更开放、没有那么局限。

问：在这些过往经历中，您觉得有没有对您影响特别大的人物或者理论？

Yilun Du：我在OpenAI期间经历了蛮大的转变。在OpenAI的日子里，我每天都会和Ilya Sutskever交流，他常跟我说，自己不太相信通用强化学习，却对通用模型格外认可，尤其是能量基模型。也正因如此，我从那时起开始投身能量基模型与通用模型的研究。

从那之后，我便一直对能量基模型抱有浓厚兴趣。后来依托我们在能量基模型上的研究，又延伸出扩散模型相关的工作——由于扩散模型与能量基模型极为相似，我们还将之前在能量基模型上的成果迁移到了扩散模型中。这段经历，也让我最终确定了如今的研究方向。

EBM与推理的未来突破

“真正想学习的EBM，是要让真实答案都是低能量，其余答案都是高能量。”

问：请您分析一下基于能量基模型（EBM）和基于分数（score）的模型，您认为它们有什么不一样的地方？

Yilun Du：其实可以说分数模型就是能量基模型的一种。传统意义上，分数匹配是训练能量基模型的一种方法。但能量基模型本身有个特点：当你学习到能量景观之后，若想生成一张图像，便可采用自适应测试时计算的方式——你希望能量优化运行多久，它便能运行多久。这正是能量基模型的优势所在，即可以通过控制采样时间，提升生成结果的质量。

问：在未来两三年里，EBM可能会最先在哪一个应用领域取得突破？

Yilun Du：我觉得能量基模型在推理领域应该会有蛮大的突破。现在推理的一个核心问题，是如何通过更多的测试时计算，得到更优的答案。能量基模型有个鲜明特点，就是能通过采样直接生成答案，因此你可以通过多步优化，逐步趋近并得到最终答案。

我们最近有一篇论文《Multi-agent Verification: Scaling Test-time Compute with Multiple Verifiers》，正是将语言模型的可能性也视作一种能量，再在其上通过采样开展推理。所以我认为，用采样与迭代优化的思路来做推理，是让模型能够依据可用时间，灵活决定测试时计算量的好方式。

问：目前最关心的研究方向是什么？

Yilun Du：总的来说，我现在对智能体的构建格外感兴趣。比如如何打造出色的机器人，让它能完成各类家庭或工作任务；核心就是探索智能体的构建方法。我感觉目前最大的问题，在于现有系统在这方面的表现都不尽如人意。

我认为问题的核心在于决策环节。世界本身存在无限可能，我或许会给智能体设定从未见过的目标，而这些目标并未包含在训练数据集中，导致系统在新环境下无法给出理想答案。这便是泛化难题。那该如何解决呢？我认为必须让系统具备推理能力，能够通过规划或搜索得出答案。我们一直在开展能量基模型相关的研究，也可以采用世界模型，比如学习一个动力学模型。有了动力学模型，再结合动作序列，就能得到动作轨迹；依据这些动作可计算出能量，进而借助能量进行搜索。

世界模型的关键挑战与构建思路

“世界上只有几个简单的规则，构建一个组合模型就能泛化到其他”

问：目前世界模型方面，要攻克的最关键问题是什么？

Yilun Du：我觉得世界模型有几个关键问题。

因果性与物理规律：现在的世界模型不够有因果性，也不够符合物理规律。比如让像Sora这样的模型去抓一个杯子，杯子可能就浮起来了，说明这些世界模型的物理准确性不足。
规划支持能力：世界模型并不需要最准确的，而是需要能支持良好规划的能力。世界知识必须是分层的，不只是模拟底层像素的方式。
泛化能力：需要让这些模型能泛化到没见过的东西。比如“没抓好杯子把杯子摔坏”的视频很少。但如果真想把视频模型用在机器人上，就必须让模型能准确模拟没见过的场景。我们一直在做组合结构相关的工作，认为世界上其实只有几个简单的规则，只要构建一个能把这些简单规则组合起来的模型，就能泛化到没见过的场景。

问：关于现有的那些世界模型，它们的方法有哪些？

Yilun Du：在我看来，不妨去翻阅传统AI的论文，其中便有“基于模型的智能”这一概念。像逻辑专家系统这类传统AI系统，都秉持着这样的思路：先建立一个数据库或储备一些信息，用以描述世界的演变规律；再设计一个推理过程，结合既定目标，通过推理推导出最终答案。我认为，这才是世界模型最通用的形态。

问：世界模型应该要记住世界的哪些关键信息，它又是怎么筛选那些信息的？

Yilun Du：这是个有意思的问题。一方面，大型语言模型记了很多高层级信息；另一方面，视频模型则有更多低层级的物理信息。所以我的感觉是，应该把现在这些模型都当作不同的信息源。

怎么筛选到有用的信息，这也特别重要。不过现在的语言模型其实有一个非常高效的获取信息的方式——只要你问它问题，就能给出一个答案。所以我觉得可以用现在的生成模型作为帮助找到有用信息的方式。你可以想象，我有一个语言模型、一个视频模型、一个动作模型，根据我需要的信息直接查询这些模型，就能得到大概需要的信息了。

研究心得：从经典与跨学科中汲取灵感

“我偏爱研读经典的AI老论文，以及心理学、神经科学领域的相关文章。”

问：如今很多研究方向呈现同质化，如何看待当前卷帙浩繁的论文？

Yilun Du：我不太喜欢，也很少去读如今大家频繁发在网上的那些论文。在我看来，要是天天沉浸在这些热门论文里，自己做的研究很容易就会和众人趋同。所以我更偏爱读一些经典论文。 比如今年我在讲授一门课程时，便带着学生从1950年开始，研读各类七八十年代，甚至五六十年代的人工智能文章。

品读这些经典老文，你会发现如今大家钻研的许多内容，其实前人早已探索过；但同时也能清晰看到不同研究方法的优劣所在。此外，我还很喜欢读心理学或神经科学领域的文章，毕竟人类本身就是一个极具代表性的智能范例。

问：神经科学领域，有没有什么让您有很大启发的想法？

Yilun Du：从神经科学中学到的一些观点，给了我不少启发。其中有一点格外有意思：人脑并非一个单一的庞大模型，而是由各类功能模块构成的复杂系统。由此可见，人脑是一个高度模块化的系统，各个模块各司其职又协同配合。我们目前开展的许多研究，正是在探索如何将各类模型整合起来，构建出更具智能的整体系统——这一思路，大概就是从神经科学的研究中得到的启发。

上一篇：高频交易超低延迟架构详解：从FPGA加速到事件驱动核心技术栈解析
下一篇：iOS 26.2正式版更新详解：液态玻璃模式、锁屏时钟透明度等新特性

世界模型, EBM, 扩散模型, 生成式人工智能, 可组合建模