云栈社区»论坛 › 开发者广场「Dev Plaza」 › Transformer架构对AGI有多重要？DeepMind研究员：真正瓶颈在于这 ...

发回帖发新帖

3930 积分	0 好友	540 主题

发消息

Transformer架构对AGI有多重要？DeepMind研究员：真正瓶颈在于这四点

发表于 2026-1-21 05:52:35 | 查看: 61| 回复: 0

Demis Hassabis在CNBC开年采访中给了一个判断：AGI还差一块拼图，可能是世界模型。

他维持“5-10年实现AGI”的预测。2010年创立DeepMind时，他预计这是一个20年的任务，现在看来进度符合预期。但他也承认，Scaling Laws虽然仍在有效，回报却在递减。“‘递减回报’和‘零回报’是两回事，我们仍然处于‘非常好的回报值得继续投入’的阶段。”关键不是Scaling Laws是否触顶，而是它能否单独带我们到达AGI。Hassabis的判断是：可能不行。

他用“jagged intelligences”（参差不齐的智能）来形容当前的大模型：某些维度表现惊人，但换个提问方式就露馅。真正的通用智能不应该有这种不一致性。当前LLM缺失的关键能力包括：无法持续学习新事物、无法真正创造原创内容、无法提出新的科学假设。

所以，世界模型可能是那块缺失的拼图。它与LLM的区别在于：LLM主要处理文本和静态内容，但理解物理世界的因果关系、进行长期规划，这些能力是缺失的。“如果你想解释世界上以前不为人知的东西——这正是科学理论做的事——你必须有一个关于世界如何运作的准确模型。”

DeepMind在世界模型方向上有多条并行的研究路线。Hassabis提到的Genie（交互式世界模型）侧重于从文本或图像生成可交互的3D环境，最新的Genie 3可以实时生成720p、24fps的交互世界，用于训练embodied agent。VEO（视频生成模型）侧重于高质量视频生成，展示了对物理的深度理解，Genie 3就建立在VEO 3的物理理解基础上。

但Hassabis的采访毕竟是CEO视角，战略层面讲得多，技术细节讲得少。世界模型用于训练agent的具体机制是什么？当前的瓶颈在哪里？这些问题我没找到好的答案。

然后就刷到了Danijar Hafner的播客采访（BuzzRobot频道）。他是Google DeepMind Staff Research Scientist，也是Dreamer系列的作者。Dreamer是DeepMind世界模型的另一条研究路线，和Genie/VEO侧重点不同——后面会详细解释。Hafner既做前沿研究，又亲手把模型scale到前沿视频模型的规模。他的视角兼具理论深度和工程务实。

说起来，AI实验室的研究员公开讲内部进展，风险不小。xAI研究员Sulaiman Khan Ghori上周刚做了一期播客，聊了不少内部细节：公司的扁平结构、每天在“Macrohard”项目上调整模型、用闲置Tesla车辆做“人类模拟器”agent的计划、要scale到一百万个这样的AI worker。播客1月15日上线，周一他就离职了，个人简介改成了“MACROHARD @xAI prev.”。外界猜测是泄露太多被请走。

相比之下，Google这边开放得多。Hafner在播客里讲了很多DeepMind世界模型的进展，包括一些没发表的Scaling实验结果。

世界模型：在想象中学习

先把概念讲清楚。

世界模型的核心思想是：与其让机器人在真实世界里摔一万次来学走路（昂贵、危险、慢），不如先学一个能预测物理世界变化的模型，然后在这个“想象”中大量训练。想象中摔一万次，成本几乎为零。

这和传统强化学习的区别在于：传统方法让agent直接和环境交互试错，每一次试错都有成本；世界模型的思路是先学会预测“如果我做X，环境会变成什么样”，然后agent在这个预测出来的世界里大量练习，最后再到真实环境验证。

Dreamer的定位和Genie不同。Genie侧重于“环境生成”——从文本或图像prompt生成多样化的可交互3D环境，让用户可以在里面导航和探索。Dreamer侧重于“agent训练”——在准确的世界模型里，用强化学习训练agent完成具体的控制任务。

两者的技术差异很明显。Hafner在Dreamer 4论文中指出，Genie 3只支持摄像机动作和一个通用“interact”按钮，而Minecraft需要完整的鼠标键盘动作空间。Genie能生成多样场景，但“在学习物体交互和游戏机制的精确物理方面仍有困难”。Dreamer的优势是准确物理预测——它真的学会了打破方块、使用工具、和工作台交互这些游戏机制——以及单GPU实时推理。

这也是为什么Hafner的研究和视频预测紧密相关。视频预测本质上就是在学世界模型。如果一个模型能准确预测视频的下一帧，它某种程度上就“理解”了那部分物理世界的运作规律。要预测一个物体怎么移动，你必须知道它的质量、摩擦力、另一面长什么样（因为它可能会旋转）、物体之间怎么相互作用、人怎么和物体互动。这些信息，都可以从视频预测中提取出来。

Dreamer系列已经迭代到第四代了，每一代解决不同的问题。

前三代专注在线学习——从头开始通过与环境交互学习，追求数据效率和最终性能。到Dreamer 2为止，model-based算法学得很快但会max out；model-free方法需要更多数据但天花板更高。Dreamer 3终于做到了既快又强，而且不用调超参数。他们用Minecraft钻石挑战验证——只从稀疏奖励从头学会获取钻石，这被广泛认为是AI的一个里程碑。

Dreamer 4则完全反过来，专注离线学习。Hafner的原话是：“等等，我们已经知道怎么在线学习了，那离线学习呢？”有时候和环境交互是危险的，你只有一个固定的人类数据集，能从中提取多强的策略？同样用Minecraft钻石任务验证，但这次只用人类数据——而且用的数据量只有OpenAI的VPT离线agent的1/100。

两者都不是完美解决方案，只是在隔离的实验设置中解决特定问题。未来自然会把这些融合在一起。

架构不重要，这四件事才重要

Hafner有一个判断很反直觉：几乎任何架构都能带我们到AGI。

Transformer能到AGI，RNN也能，差别只是计算效率和当前硬件的适配程度。RNN训练慢一点、推理快一点、可能需要更大模型来弥补架构瓶颈，但最终都能到。所以，关于Transformer vs Mamba vs SSM之类的架构之争，在Hafner看来更多是效率问题，而非根本性问题。

那什么才重要？Hafner列了四件事：compute、objective functions（目标函数）、data、以及RL算法细节。比如长期信用分配（long-term credit assignment）比基础强化学习需要做得更好。架构只是承载这些的容器。

另一个相关判断：“LLM能否带我们到AGI”这个问题本身已经过时了。为什么？因为当下部署的前沿模型已经不是纯LLM了——有图像理解、图像生成、视频理解，视频生成也快合进来了。讨论“LLM的局限”有点像讨论“汽车能不能上天”——汽车不能，但加上翅膀的汽车能。

那AGI还缺什么？Hafner点了几个具体的能力缺口。

长上下文理解。现在的模型号称百万token上下文，但对视频来说远远不够，视频的token量太大。而且即使有了长上下文，模型真正基于全部上下文来检索和推理的能力还没到位。可能的方向包括：混合retrieval模型、学习状态表示同时做注意力、类似Transformer但不需要回溯的关联记忆。Hafner提到，Transformer之前有很多酷想法，只是当时太早了——“当时重要的不是长期记忆或花哨的寻址机制，而是scale up和计算效率。”

超越人类的推理。从人类学推理很容易，但这样就被人类能力上限锁死了。AI系统应该能自己发现推理方式。这意味着要从原始的高维数据（视频、音频、人类生活数据、机器人数据）中提取抽象概念，然后在这些概念上做规划。Hafner坦言：“我认为我们还没有很好地掌握如何做到这一点。”

In-context learning的根本局限

这是播客中一个重要但容易被忽视的讨论。

训练神经网络时，你用目标函数优化它，训练越多就越好。但in-context learning是完全不同的机制。Hafner说：“你只是希望模型学会了以看起来像学习的方式泛化。但系统里没有任何东西会让它真正aggressive地优化任何目标。它并没有真正努力去记住，没有真正努力去理解上下文中的模式。”

我们可以通过构造巧妙的训练样本（强迫模型解谜题、记东西）来把这些能力训进权重里，但那终究是学习来的算法，可能不如真正做优化那么goal-directed。

一种可能的方向是nested learning（嵌套学习）：让模型的一部分在推理时快速学习上下文，而不是像现在的GPT那样上下文通过后就丢弃。Hafner指出一个根本性问题：“你没法在推理时优化，所以再多的预训练也无法预见推理时会输入什么。”

他还提到可能需要多个学习时间尺度。快的时间尺度训练效率更高，慢的时间尺度学习更深度的东西。他能想象一种通用算法，你可以说“我要k=5个学习时间尺度”。目前还没有在这个空间里真正work的算法，但这是个很有意思的方向。

有一种方式是：如果你有百万用户，也许可以把1万个用户交互batch在一起做一次更新，模型就真正深度学习了。现在GPT-4发布后和用户交互产生的数据要等1-2年才能影响GPT-5。能不能把这个周期缩到几天，甚至几秒？理论上能，但挑战巨大：大模型训练太贵、在线更新时保持安全性很难、静态模型更容易研究和修补quirks。

这些想法——nested learning、多时间尺度学习、持续学习——很多都受神经科学启发。Hafner提到一个有意思的观点：Hassabis的导师Thomas Poggio说，2015年Demis认为构建通用智能是80%神经科学、20%工程；最近更新成了90%工程。但Hafner认为，“既然我们最近把工程推得这么远，回去从神经科学获取直觉的价值反而越来越大了。”

Scaling的发现：视频模型的天花板远得很

Hafner透露了一些没发表的结果：他们把世界模型scale到了前沿视频模型的规模，效果很好。

更重要的是他的判断：视频模型的scaling天花板，比文本模型高至少一个数量级。

为什么？因为视频蕴含的信息量远超文本。即使是顶级视频模型，“基本上也是欠拟合的”。现在的视频模型为了生成漂亮的电影片段做了collapse，但如果目标是真正理解物理世界（而不只是生成漂亮视频），scaling的空间巨大。

Hafner说，模型越大，各方面都会变得更锐利。比如库存预测（在Minecraft中），如果模型太小就不准确。你可以专门收集这方面的数据来改进，但另一种方式是把模型做大8倍，它自然就会在库存动态上变得很好。他们还做了完整的YouTube预训练实验——抓取大数据集、过滤质量、在上面训练——那时候才真正看到强泛化收益。

这和Hassabis的判断呼应。Hassabis说world model可能是通向AGI缺失的那块拼图，Hafner则从工程视角告诉你：这块拼图的潜力，我们才挖掘了一小部分。

不过Hafner也提到了世界模型的局限。Dreamer 4只用人类数据训练时，遇到了反事实问题：人类玩家从不尝试用错误材料做镐子（比如用钻石做木镐），所以世界模型不知道那些配方不存在，RL agent会exploit这些漏洞——它看起来像是在做镐子，世界模型就“好吧，给你一个镐子”，尽管那个配方根本不存在。

解决方案是2-3轮环境交互的校正数据，问题就消失了。这里有个重要的动态：RL agent会找到世界模型的所有潜在漏洞，然后在真实环境部署获得反馈，形成对抗博弈。最终世界模型会变得robust，策略也会变强。

换句话说，纯离线数据在真实世界不可能完美，必须与环境交互才能学到真正的因果模型。

目标函数：被低估的设计空间

Hafner认为目标函数是一个被低估的改进方向。

他把目标函数分成两类。一类是偏好型（reward、inductive bias）：由人类指定，没有数学公式能描述，必须从人类反馈中学习。另一类是信息型（预测、重构、好奇心）：让模型理解数据本身。两边都有很大改进空间。

对于文本，next token prediction可以走很远，但也有更多可以做的——比如同时预测多个token，可以让模型更有远见。

对于多模态，现在基本上是各种loss的缝合怪：视觉encoder用对比损失、文本用next token、图像生成用diffusion，还要平衡所有这些loss。Hafner认为可能有办法把一切统一起来，“让我们的生活更简单，最终也能获得更好的性能”。不同loss对不同模态有好处，但他认为这不是根本性的trade-off，如果能抽象出来，好处可以跨模态共享。

对于agent，短期RL（1000步以内）现在很稳定了，但端到端优化长horizon任务还不行，误差在每个时间步累积。探索目标、goal-reaching目标、通用的robust reward model——这些都缺好的目标函数设计。

Hafner的判断是：“唯一缺的基本上就是目标函数。你可以说我们没有数据，但说实话数据就在那儿，人工收集也不难，真正缺的是如何构建这样系统的idea。我们做了那么多scaling和数据工程，已经很擅长这些了，不应该停下来。但这些现在不那么难了，我们又回到了搞算法的阶段。”

预训练和强化学习的分工

预训练从样本学知识，高效，适合吸收信息。强化学习从reward学策略，适合优化。

Hafner解释了为什么RL比预训练更难学知识：用reward学习，你必须先猜一个知识点，然后模型才被告知猜得对不对。这比直接从样本中吸收信息低效得多。

但RL在优化策略上无可替代。关键问题是：获取最优控制数据几乎不可能。人类数据不是optimal的，你让contractor收集数据，可能要扔掉99%，而且optimal还依赖于horizon长度——理想情况下你要对很长的horizon最优。这就是RL的价值——你不需要optimal数据，只需要让模型自己试错找到更好的策略。

人类也是这样：通过观察学知识（预测接下来会发生什么），通过试错学技能（强化学习）。观察也能学到一些粗略但不精确的技能，因为我们预测别人会做什么时用的心理表征和我们自己的表征差不多，所以能泛化到想象自己做那些事。

对机器人的意义：两波冲击

世界模型对机器人的影响，Hafner认为会有两波。

第一波是表征。 从视频预测模型学到的表征，对物理世界的理解远超现在的VLM。精确物体位置、物理属性（这个盘子有多滑？这个杯子要握多紧茶才不会洒？如果我从把手拿起这个杯子，要握多紧它才不会从手里滑出去？）——这些对控制至关重要的信息，是视频预测的副产品。

从头训练策略需要大量数据，得到的策略窄而脆弱，只能在特定场景下工作；用预训练VLM好一点，但那些表征还不是为物理层面的世界理解设计的。用视频预测模型的表征做imitation learning，效果已经massively better。

第二波是虚拟训练。 足够多样的预训练加上少量机器人数据微调，世界模型就能模拟机器人在任意场景中的表现。Hafner的原话是：“你可以在数据中心里，让机器人在一百万个厨房、做一百万种餐食，全部并行训练。不用真的租一百万间Airbnb、造一百万台机器人、把它们运到城市各处。”

大规模做这件事还有挑战，但Hafner认为这是机器人领域的第二个step change。Dreamer 4的论文展示了完整的recipe：添加agent token训练BC策略，然后训练reward model，然后RL微调。

关于时间表，Hafner给了一个预估：机器人可能在三到五年内，朝着实用的通用机器人产品的第一个版本取得很好的进展。复杂的长期推理可能要5-10年才能crack，但实用的通用机器人不需要等那么久。

这和Hassabis的判断吻合。Hassabis在采访中说，2026年机器人领域会有非常有趣的进展，DeepMind正在用Gemini Robotics做一些雄心勃勃的项目。CNBC主持人对此持怀疑态度——很多机器人其实是“提线木偶”，由控制室的人远程操控（比如Tesla的Optimus机器人）。但正因为如此，世界模型才重要：机器人要真正自主运作，需要理解物理世界。

LLM为什么在边缘情况产生幻觉

Hafner有个有趣的解释，涉及到agent和环境的关系。

Agent会收敛到一个distribution，在那里它能合理地达成目标，也能合理地预测会发生什么。系统在那个数据上练得多，分配的模型容量也都在那个相关分布上，所以不太会失败。但也会开始遗忘其他东西。

另一种构建更强系统的方式是做大、用更多数据训练，扩大这个niche。但分布边缘总会有模型出错、泛化失败、产生幻觉的地方。

Hafner说：“我认为这就是我们现在在LLM上看到的——它们在大部分分布内的东西上都相当通用、相当好，但在边缘地带会被绊倒、错误泛化、产生幻觉。”

做一些在线RL会帮助精炼系统：如果它产生幻觉，用户不满意，就会得到负reward，然后要么学会正确答案，要么学会说“我不知道”，最终落在一个非常稳固的分布上。

小结

把Hafner和Hassabis的观点放在一起看，有几个交叉验证的判断：

世界模型是重要方向。 Hassabis说这可能是AGI缺失的拼图，Hafner则在一线做这件事，而且透露scaling到前沿规模效果很好。

视频模型的潜力还没充分释放。 Scaling空间至少比文本大一个数量级，顶级模型还在欠拟合。

架构不是瓶颈。 Transformer、RNN都能到AGI，真正重要的是compute、目标函数、数据、算法细节。当前模型已经不是纯LLM了。

In-context learning有根本性局限。 没有真正的目标优化，可能需要推理时学习和多时间尺度学习来突破。

机器人会在3-5年内有实质进展。 不需要等到长期推理问题完全解决。世界模型会从表征和虚拟训练两个方向推动这件事。

Hafner最后说，这个领域太interconnected了，不太可能真正分化。随着训练大模型的开销，只做一次训练、得到一个能跨领域受益的模型才合理。Agent已经在成为前沿模型的一部分，视频生成虽然现在还分开，但可能一年内就会有用同一套权重的强大omni模型。

学习推理看起来概念上很有挑战，可能需要5-10年。但实用的东西，会比我们想象的更快出现。 对这个话题有更深入讨论和思考，欢迎到云栈社区参与交流。

上一篇：程序员高效开发必备：3000+实用工具资源大全与分类推荐
下一篇：身体所有权如何进入意识？PNAS研究揭示觉知、整合与证据积累机制

Transformer, 世界模型, AGI, 机器人, 深度学习