想象一下:你用手机点开一个网页,瞬间出现哈利波特里的霍格沃茨城堡的礼堂,天花板处是真实的星空,烛光漂浮在半空中,照亮着整个礼堂。你转动视角,细节自动加载,卡顿?不存在的!
最近 AI 3D 领域被一颗“ Spark ”点燃了,来自 World Labs 的 Spark 2.0 正式开源发布!
来看一波官方视觉震撼,旧金山科伊特塔的超过 4000 万个 Splat(泼溅)细节拉满,城市、树木、天空无缝融合。

Spark 2.0 能让超一亿细节的 3D 庞大开放世界在普通手机、电脑甚至 VR 眼镜上实时可互动地呈现出来,这意味着任何人都能构建适用于所有设备的交互式 3D 世界体验!
李飞飞在 X 上也表示,对这次突破现有网页渲染器限制,提供一个完整的网络流式和渲染 3D高斯泼溅(Gaussian Splatting,3DGS)世界的开源解决方案感到非常自豪!

有网友评论,“帖子里的技术深度令人惊叹”。

一位亚马逊云的空间计算架构师 Adam Chernick,主要专注于 AR/VR、3D 实时渲染、数字孪生、3DGS 等新兴技术,也给出了很高赞誉。

浏览器上能使用的 3DGS 技术
这一版本的推出,直接把 3DGS 推到了一个新高度,让我们先来理解下 3DGS 技术。
简单来说,3DGS 是使用数百万个可调节的 3D 高斯椭球来融合形成超逼真的场景,就像用无数彩色、半透明的小椭球堆叠出整个 3D 世界。
Splat 是指渲染时把这些 3D 高斯椭球“泼溅”到 2D 屏幕上。每个 Splat 由其位置、XYZ 尺度、旋转、颜色和透明度定义。他们使用“画家算法”渲染它们,实时将数百万个椭球从前到后排序。

国内在 3D 领域全球领先的公司 Meshy 和 Tripo 使用的技术多是 Mesh(网格)建模,而 3DGS 比 Mesh 更具有流动性,而且能够实时渲染、构建时间更短、稳定高保真,不过其缺点在于编辑性稍差。

Spark 2.0 的核心黑科技
Spark 的推出源自 World Labs 过去内部开发的一个工具,用于解决“大多数渲染器只能处理一个对象,并且缺乏动态动画”的问题。
他们在 three.js 和 WebGL2 上构建了 Spark,所以不仅能和 Mesh 模型混搭,还能在任何设备上构建 3D 世界。
为了能在浏览器中渲染超过 1 亿个 splat,他们实现规模化的方法是以下三个核心系统:
连续 LoD 树(Continuous Level-of-Detail trees)
Spark 2.0 使用了 LoD Splat 树。这使得视野中的场景不是粗糙和精细两档切换,而是连续自适应。

每个场景建一棵 Splat 树,根节点是整个物体的超级粗略版,叶节点是原始百万级细节。Spark 根据你的视角实时“切”树,挑最合适的 Splat 数量(可预算 50 万到 250 万),保证 GPU 负载恒定。远看省资源,近看出细节,还支持固定注视点渲染。

渐进式 .RAD 流(Progressive .RAD streaming)
告别不适合流式传输的 .PLY 和 .SPZ 格式文件,他们开发了 .RAD 格式,让我们能即时看到场景的 64K 粗糙版,边看边精炼,细节按移动优先加载。

GPU 虚拟内存分页(GPU Virtual Memory paging)
借鉴操作系统虚拟内存,他们在 GPU 上搞了个 16M splat 的“物理池”,用 LRU 算法在 .RAD 文件中交换 64K“页”的数据进出。手机内存再小,也能渲染“无限”复合世界。多个对象无缝融合,不会出现“贴图感”。
让多个 3DGS 对象在同一空间共存的算法逻辑是:生成一个全局列表 → 从前向后排序 → 一次性渲染。

此外,每个 splat 都提供了可编程的 GPU 流水线,这解锁了实时效果,像 SDF 裁剪、动画过渡和 4DGS 插值都可以随便玩。
体验与安装
在官方给出的旧金山科伊特塔实例中,控制系统包括运动模式、LoD、页码表三部分,十分细致。

简单用鼠标进行视角转换和缩放,确实顺滑无卡顿,不过进入世界的初始加载稍有迟滞。
官方文件里还提供了一个可直接运行的 HTML 代码示例,打开是一只色彩鲜艳、极其逼真的蝴蝶。

Spark 2.0 的安装方式就一条指令,可通过 NPM 安装:
npm install @sparkjsdev/spark
由于 Spark 库的部分核心代码是用 Rust 语言编写的,并且编译成了 WebAssembly (Wasm) 模块,因此在从源码构建时需要安装 Rust 开发环境。
官方文件的功能特性里强调,Spark 适合需要在浏览器中展示高质量 3D 场景的开发者。它提供了 LOD、多种数据格式支持和编辑能力,并且通过 Wasm 提升了性能。
写在最后
4 月以来,Meta 发布多模态大模型 Muse Spark,阿里的 HappyHorse-1.0 匿名上线并登顶视频生成榜单,World Labs 又推出 Spark 2.0,新东西层出不穷。
Spark 2.0 的这次开源发布,将视觉 AI 最前沿的 3DGS 技术从实验室中解放出来,成为人人能用、浏览器里就能跑的“3D 世界底层平台”。这不仅让李飞飞团队的“空间智能”愿景加速落地,更可能引发下一波 AI 应用浪潮:从 2D 屏幕到 3D 世界,从被动观看到主动交互。
在 AI 前沿越来越强调“具身”和“世界模型”的今天,Spark 2.0 可能将会是一根导火索——点燃普通开发者、创作者和研究者共同构建“AI 3D 宇宙”的热情。下一个现象级 XR 应用、机器人训练平台,或者教育交互应用,说不定就会因它而诞生。对于这类前沿技术的实践与讨论,正是像云栈社区这样的平台所关注的。
参考链接:
https://x.com/sparkjsdev/status/2044090505982816449
https://wlt-ai-cdn.art/spark-2.0/260413/explore-coit.html
https://sparkjs.dev/