云栈社区»论坛 › 开发者广场「Dev Plaza」 › 空间理论新研究：基础模型如何通过主动探索构建空间信念？ ...

发回帖发新帖

3917 积分	0 好友	521 主题

发消息

空间理论新研究：基础模型如何通过主动探索构建空间信念？

发表于 2026-3-8 03:11:07 | 查看: 125| 回复: 0

编者摘要：2026年2月24日，斯坦福大学李飞飞等学者发布了一项前沿研究，提出了名为空间理论的新基准。该研究旨在测试基础模型能否像人类一样，通过自主探索来构建、修订并利用对物理空间的内在理解。研究团队设计了程序生成的多房间环境，将模型输出的内部信念外化为结构化认知地图，并对包括GPT-5.2在内的6个顶尖模型进行了评估。结果显示，当前模型在主动探索能力上存在显著瓶颈，并暴露出模态差距、认知地图失灵和信念修正失败等关键问题。这一基准为未来开发具备更强空间推理能力的AI系统奠定了基础，相关论文、代码均已开源。

空间理论研究框架思维导图

当AI进入一个陌生的房间，它需要多久才能搞清楚门在哪、沙发在哪、自己身处何处？人类可以轻松地通过走动和观察来建立“心理地图”，但当前最强大的基础模型却未必能做到。斯坦福大学的最新研究“空间理论”正是为了探究这个问题：AI能否通过主动探索，自主构建并维护对空间的理解？

理论提出：从心智理论（ToM）到空间理论（ToS）

在心智理论领域，研究者们关注智能体如何推断他人的心理状态。借鉴这一思路，“空间理论”旨在衡量智能体如何对世界的隐性物理结构进行建模。具体来说，它被定义为智能体通过探索构建空间信念、并利用这些信念完成下游空间任务、以及在环境变化时对其信念进行修订的能力。

Theory of Mind (ToM) 与 Theory of Space (ToS) 概念对比图

其核心围绕三种相互关联的能力展开：

构造：智能体能否通过主动探索，将零散的局部观察整合成一个全局一致的空间信念？
修订：当环境发生变化（例如物体被移动）时，智能体能否更新其心理地图，用新证据替换过时的信息？
利用：智能体能否利用其构建的空间信念，回答关于方向、位置和视角的空间推理问题？

空间理论（ToS）三大核心能力示意图

为了将这一理论框架付诸实践，研究团队创建了一个全新的基准测试环境。该环境采用程序化生成的多房间布局，智能体在未知环境中起步，需要自主决定下一步的观察、旋转和移动。测试提供了两种模态：基于文本的符号化环境描述（如“椅子在你的左前方，距离中等”）和基于视觉的、由ThreeDWorld渲染的自我中心RGB图像。

关键创新：将“黑箱”信念外化为认知地图

以往评估大多将模型视为黑箱，只关注最终答案的对错。这项研究的一个突破在于，它要求模型在每个探索步骤中，都将其内部的空间信念外化为一张结构化的认知地图。具体来说，模型需要输出一个JSON格式的物体姿态地图，并在地图上标注出未观察到的候选点。

这种做法的意义在于，它将评估的核心问题从“你的答案是否正确？”转变为了“你是否真正理解了这个空间？”。这使我们能够精确地区分失败是源于空间推理本身的缺陷，还是视觉感知的错误。

机器人探索过程与生成认知地图示意图

模型评估：揭示当前SOTA模型的三大瓶颈

研究对六个顶尖的基础模型进行了全面评估，包括闭源的GPT-5.2、Gemini 3 Pro、Claude Sonnet 4.5，以及开源的GLM-4.6V、Qwen3-VL-235B和InternVL 3.5。实验结果揭示了几个关键问题：

模态差距显著：在所有评估指标上，文本模态的表现都显著优于视觉模态。这表明，当前模型在处理原始视觉信息以构建精确空间理解方面，仍存在巨大挑战。
主动探索是核心瓶颈：当模型必须自主决定观察什么（主动模式），而非被动接收所有信息（被动模式）时，其性能出现急剧下降。在视觉世界中，GPT-5.2的准确率从57.1%降至46.0%，Gemini-3 Pro从60.5%降至57.3%。此外，模型的探索效率低下，一个脚本智能体只需约9步就能达到目标覆盖率，而基础模型需要超过14步，且构建的地图准确性更差。
认知地图质量堪忧：通过对模型外化地图的四个维度（正确性、感知、稳定性、自我追踪）进行评估，研究发现视觉感知是主要瓶颈。尤其是在物体方向判断上，视觉设置下的正确率仅为20-32%，而文本模式下则高达91-92%。此外，模型关于已观察物体的信念会随时间退化，新的观察有时会破坏之前正确的记忆。
信念修正能力薄弱：在一个“错误信念”实验中，研究者在初步探索后秘密移动了物体，要求模型重新探索并更新地图。结果发现两大失败：一是视觉模型在修订时存在大量冗余探索（如GPT-5.2平均冗余6.2步）且识别物体位移的准确率极低；二是模型表现出强烈的“信念惯性”，即使直接观察到了物体在新位置，也频繁无法覆盖其旧的、过时的空间记忆（如GPT-5.2在视觉环境中的朝向惯性高达68.9%）。

基础模型评估结果柱状图：主动与被动模式对比