编者摘要:2026年2月24日,斯坦福大学李飞飞等学者发布了一项前沿研究,提出了名为空间理论的新基准。该研究旨在测试基础模型能否像人类一样,通过自主探索来构建、修订并利用对物理空间的内在理解。研究团队设计了程序生成的多房间环境,将模型输出的内部信念外化为结构化认知地图,并对包括GPT-5.2在内的6个顶尖模型进行了评估。结果显示,当前模型在主动探索能力上存在显著瓶颈,并暴露出模态差距、认知地图失灵和信念修正失败等关键问题。这一基准为未来开发具备更强空间推理能力的AI系统奠定了基础,相关论文、代码均已开源。

当AI进入一个陌生的房间,它需要多久才能搞清楚门在哪、沙发在哪、自己身处何处?人类可以轻松地通过走动和观察来建立“心理地图”,但当前最强大的基础模型却未必能做到。斯坦福大学的最新研究“空间理论”正是为了探究这个问题:AI能否通过主动探索,自主构建并维护对空间的理解?
理论提出:从心智理论(ToM)到空间理论(ToS)
在心智理论领域,研究者们关注智能体如何推断他人的心理状态。借鉴这一思路,“空间理论”旨在衡量智能体如何对世界的隐性物理结构进行建模。具体来说,它被定义为智能体通过探索构建空间信念、并利用这些信念完成下游空间任务、以及在环境变化时对其信念进行修订的能力。

其核心围绕三种相互关联的能力展开:
- 构造:智能体能否通过主动探索,将零散的局部观察整合成一个全局一致的空间信念?
- 修订:当环境发生变化(例如物体被移动)时,智能体能否更新其心理地图,用新证据替换过时的信息?
- 利用:智能体能否利用其构建的空间信念,回答关于方向、位置和视角的空间推理问题?

为了将这一理论框架付诸实践,研究团队创建了一个全新的基准测试环境。该环境采用程序化生成的多房间布局,智能体在未知环境中起步,需要自主决定下一步的观察、旋转和移动。测试提供了两种模态:基于文本的符号化环境描述(如“椅子在你的左前方,距离中等”)和基于视觉的、由ThreeDWorld渲染的自我中心RGB图像。
关键创新:将“黑箱”信念外化为认知地图
以往评估大多将模型视为黑箱,只关注最终答案的对错。这项研究的一个突破在于,它要求模型在每个探索步骤中,都将其内部的空间信念外化为一张结构化的认知地图。具体来说,模型需要输出一个JSON格式的物体姿态地图,并在地图上标注出未观察到的候选点。
这种做法的意义在于,它将评估的核心问题从“你的答案是否正确?”转变为了“你是否真正理解了这个空间?”。这使我们能够精确地区分失败是源于空间推理本身的缺陷,还是视觉感知的错误。

模型评估:揭示当前SOTA模型的三大瓶颈
研究对六个顶尖的基础模型进行了全面评估,包括闭源的GPT-5.2、Gemini 3 Pro、Claude Sonnet 4.5,以及开源的GLM-4.6V、Qwen3-VL-235B和InternVL 3.5。实验结果揭示了几个关键问题:
- 模态差距显著:在所有评估指标上,文本模态的表现都显著优于视觉模态。这表明,当前模型在处理原始视觉信息以构建精确空间理解方面,仍存在巨大挑战。
- 主动探索是核心瓶颈:当模型必须自主决定观察什么(主动模式),而非被动接收所有信息(被动模式)时,其性能出现急剧下降。在视觉世界中,GPT-5.2的准确率从57.1%降至46.0%,Gemini-3 Pro从60.5%降至57.3%。此外,模型的探索效率低下,一个脚本智能体只需约9步就能达到目标覆盖率,而基础模型需要超过14步,且构建的地图准确性更差。
- 认知地图质量堪忧:通过对模型外化地图的四个维度(正确性、感知、稳定性、自我追踪)进行评估,研究发现视觉感知是主要瓶颈。尤其是在物体方向判断上,视觉设置下的正确率仅为20-32%,而文本模式下则高达91-92%。此外,模型关于已观察物体的信念会随时间退化,新的观察有时会破坏之前正确的记忆。
- 信念修正能力薄弱:在一个“错误信念”实验中,研究者在初步探索后秘密移动了物体,要求模型重新探索并更新地图。结果发现两大失败:一是视觉模型在修订时存在大量冗余探索(如GPT-5.2平均冗余6.2步)且识别物体位移的准确率极低;二是模型表现出强烈的“信念惯性”,即使直接观察到了物体在新位置,也频繁无法覆盖其旧的、过时的空间记忆(如GPT-5.2在视觉环境中的朝向惯性高达68.9%)。


展望:为下一代空间智能AI奠基
“空间理论”基准的意义在于,它将空间能力评估的焦点,从“模型能否回答空间问题”重新校准为“模型能否通过有效的信息收集,建立并维护一个连贯、可修订的空间世界模型”。
这项研究不仅为学术界提供了一个严谨的评估工具,也为产业界开发更强大的具身智能、机器人导航和空间理解应用指明了方向。未来的AI系统需要发展出具备不确定性感知的探索策略、能够在长期任务中维持稳健信念的机制,以及灵活修正错误信念的能力。
研究的论文、代码和完整基准测试均已公开:https://theory-of-space.github.io/
这项关于空间认知的前沿探索,不仅对人工智能领域至关重要,其揭示的问题与人类的空间智能也形成了有趣的对照。对这类交叉领域研究感兴趣的朋友,欢迎在云栈社区的“人工智能”板块参与更多深度讨论。
|