找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4115

积分

1

好友

563

主题
发表于 10 小时前 | 查看: 3| 回复: 0

一张社交媒体截图,显示了Fei-Fei Li转发World Labs关于3D作为通用接口的推文

AI时代,我们已经习惯了用“说话”来调动一切。想要一个表格,动动嘴皮子,大模型就能生成;想完成个复杂任务,交代清楚目标,“智能体”自己就去干活了。这背后一个关键原因是,语言(文本)本身就是一个成熟的、结构化的通用接口。

然而,当我们的需求从文本转到空间——比如想改变一套房子的布局,或者为机器人设计一个新的仓库环境——事情就没那么简单了。你不能仅靠一句话反复“生成画面”。空间世界需要持久的结构、明确的物体和可迭代的规则,就像程序需要源代码,而不是每次都从头计算一次结果。那么,当 AI 开始深度参与空间创作和现实世界任务时,什么才是它与人类、与其他系统沟通的“通用接口”呢?

来自 World Labs 的团队在他们的博客中给出了一个鲜明的答案:3D。他们认为,3D 不只是一堆视觉效果,而是一种像代码一样的结构化表达。它可以被生成、检查、修改、版本管理,并接入模拟系统、机器人软件栈和现有的设计工具链。李飞飞本人也转发了这篇博文,表达了对这一观点的认同。

围绕这个核心类比,文章构建了一个清晰的框架:神经图形学像编程语言,负责表达空间结构;模拟引擎像芯片,负责执行规则与物理;而世界模型则开始承担“写空间代码”的角色。理解这一点,其实是在理解一个更大的范式转移——当空间本身变成可编程的媒介,人机协作的方式将被重新定义。

以下是博客核心内容的梳理与解读。

3D —— 空间的“代码”

我们可以通过将 3D 表示与代码进行比较,来理解它在空间领域中的作用。代码是一种持久的抽象,旨在指定由处理器执行的底层逻辑,它驱动了现代世界。如今,AI 模型在推理和生成代码方面变得极其熟练。作为接口,代码和 3D 在结构与用途上有着重要的相似性。

在人与机器之间:

  • 代码是人机交互中极其强大的接口。当 AI 系统生成代码时,人类可以对其进行检查、修改、调试,并将其集成到更大的系统中。这促成了复合工作流:程序员和 AI 编程智能体可以共同迭代完善解决方案。
  • 3D 表示也可以发挥类似的作用。当世界模型生成一个 3D 场景时,人类可以在熟悉的工具中打开它,编辑几何体、调整约束、重新运行模拟并纠正错误。同样,设计师和工程师可以与生成式世界模型进行协作。

在机器与机器之间:

  • 代码还可以作为机器到机器的接口。AI 生成的程序可以插入编译器、运行时环境、API 以及现有的软件基础设施中。
  • 同样,3D 输出也能与渲染引擎、模拟系统、物理求解器、机器人软件栈和 CAD 工具集成。当世界模型生成结构化的 3D 表示而非像素时,它就可以参与到现有的流水线中。

在这两种情况下,关键属性都是将状态外化为其他系统可以使用的结构化构件

试想“代码”领域的替代方案:我们不让 LLM 编写程序,而是让它“成为”程序本身。例如,直接提示 LLM :“对这一百万个数字排序。” 模型或许能尝试在它的推理中模拟排序过程,但这更像是一种“小把戏”,我们并不指望它能完美、高效地完成。为什么呢?

因为代码执行提供了原始推理所不具备的保证:可重复执行性、人类可读性和模块化可组合性。代码将思考、表示和执行分离开来:你思考算法,将程序写成文本,然后再运行它。

空间系统中有一个直接的对应关系。让 AI “成为程序”的等效做法,就是抛弃结构化的世界表示和模拟引擎,转而纯粹依赖一个逐帧生成像素或状态的黑盒模型。此类模型可能在其核心任务上表现优异,但它们缺乏可操作的结构:其输出无法被检查、编辑、轻松共享,也无法集成到现有的模拟和控制系统中。

神经图形学 —— 空间的“编程语言”

如果说 3D 是代码在空间领域的类比,那么什么扮演着编程语言的角色呢?它需要足够精确、富有表现力且通用,足以描述和模拟世界。

几十年来,我们拥有多种 3D 表示:网格、体素、点云、隐式场、CAD 格式等。但创建丰富的大规模空间(尤其是数字孪生)一直非常困难,并受制于硬件。传统 3D 引擎围绕严格的内存和计算限制构建,需要简化几何体和手工资产。

机器学习优化的软硬件爆炸式增长打破了这些限制。现代 GPU 庞大的内存和强大的并行计算能力,使得 NeRFGaussian Splatting 等消耗大量资源的技术成为可能。我们现在可以生成、存储和渲染世界级规模的表示,并在需要时动态重新计算它们。

在这个新架构栈中,神经图形学发挥着类似编程语言的作用。它提供了一种表现力丰富的媒介,用于描述和生成空间结构,就像高级语言描述计算结构一样。

模拟引擎 —— 空间的“芯片”

当世界模型能够随着时间运行,实现交互、持久性和动态变化时,它才真正变得有用。如果 3D 是代码,那么模拟引擎就是运行它的芯片

交互性涉及一系列系统问题:状态管理、物理机制、碰撞检测、光照、同步、确定性和回放。这至少需要三个核心组件:

  • 状态管理(存在什么)
  • 更新规则(动作和物理/规则如何改变它)
  • 观测(当前状态如何被渲染为像素或传感器输出)

原则上,大型生成模型可以将这一切折叠成一个端到端的映射:(历史 + 动作)→ 下一帧。在这里,“状态”仅存在于短暂的神经激活中。这是一个引人注目的研究方向。

但折叠这个架构栈会引入一个根本性的权衡。当内存、动态和渲染都纠缠在一个单一网络内部时,创造和消费的界限就模糊了。编辑代码变得与执行代码无法区分。这种混为一谈削弱了物理一致性、可回放性和确定性等保证。

另一种替代方案是因式分解或混合运行时:学习到的世界模型生成和解释结构,但在 3D 接口的媒介作用下,有针对性地使用类似现有引擎的外部工具进行物理模拟等“规则至关重要”的计算。

在因式分解的系统中,3D 成为人机之间一个强大的接口,暴露出可控、可重复且可互操作的输入和输出。

3D:强大的人机接口

鉴于我们将 3D 比作代码,让我们看看为什么 3D 是描述和与物理/虚拟世界互动的强大媒介。

对于机器:
许多软件系统已经在空间维度上运行:模拟器、机器人软件栈、游戏引擎、CAD 工具等。如果世界模型以相同的结构化语言生成输出,它就可以直接接入现有流水线。
此外,机器之间需要交流空间意图(如规划目标区域、标注禁区)。结构化的 3D 是一种比语言更高效、更自然的通用语。
当一个世界模型能够将其“思想”外化为具体的表示(如 Splats、网格)时,它们就成了可被检查、版本控制、测试和重用的构件。

对于人:
3D 交互对人类来说是很自然的。我们的心智模型是围绕持久的物体和关系构建的。当系统暴露出这种显式的结构时,便与我们原有的思考方式对齐了。
这与纯粹基于 2D 图像(逐帧重绘)的工作流形成对比。在 3D 中,世界被构建一次,随后只需移动相机、改变光照、让物体动起来即可。单次空间编辑会自动传播到每一帧。这种将空间表示与渲染分离的做法,恰恰反映了代码与执行之间的分离

迈向可编程的未来

如果 3D 扮演着类似于代码作为人机接口的角色,那么发展轨迹就很清晰了:世界变得“可编程”,成为一种人与机器都能生成、编辑、组合和分享的媒介。

这正是 World Labs 努力建设的方向:

  • Marble 是一个多模态世界模型,旨在重建、生成和模拟 3D 世界。它可以从多种输入中创建持久的、可导航的世界,并可被编辑、导出和集成到下游工具中。
  • Chisel 是 Marble 的一个实验性功能,它允许用户使用墙壁、平面等粗略结构进行勾勒,作为生成详细世界的输入,实现了布局与样式的分离控制。
  • RTFMSpark 探索了渲染层。RTFM 实验“学习型渲染”,Spark 则是一款高性能的 Gaussian Splatting WebGL 渲染器。

这一领域正在快速演变。世界模型将越来越多地参与到混合架构栈中:生成结构化的世界(“代码”),通过神经图形学(“语言”)表达,并在模拟引擎(“芯片”)内执行。这是一场向可编程、数据驱动的空间系统迈进的范式转移,将支持逼真的环境、数字孪生、机器人以及全新的应用。

其核心前提始终不变:人类、智能体和软件之间可靠的沟通与协作,需要一个精确、紧凑、可检查且可操纵的接口。

那个接口,就是 3D

原文链接https://www.worldlabs.ai/blog/3d-as-code

你对“3D即代码”这个观点怎么看?它真的能成为下一代人机交互的通用接口吗?欢迎在 云栈社区 的「智能与数据」板块分享你的见解,与技术同好们一起探讨AI与空间计算的未来。




上一篇:信息论视角解析大模型原理:从香农到语义信息论与定向信息
下一篇:千元预算1080P游戏显卡选择:AMD RX 6600 XT性能、功耗与黑苹果兼容性评测
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-5 19:49 , Processed in 0.483179 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表