
这两天,世界模型这个概念在 云栈社区 非常火爆。腾讯、阿里相继入局之后,现在字节也正式“半入局”了。
字节发布了 Seed3D 2.0,这是一个 3D 生成模型。你给它文字、图片、多视角图,甚至视频,它就能帮你生成 3D 模型。

Seed3D 2.0 的第一个优势,是把几何精度往生产级推了一步。过去的 3D 生成,最大问题不是不够惊艳,而是不够可靠——边缘发软、薄壁结构断裂、材质只在单一光照下好看。放进游戏引擎、仿真系统或机器人训练环境里,很快露馅。Seed3D 2.0 用两阶段 DiT 先搭整体结构,再补高精度细节,让锐边、曲面、复杂拓扑和薄结构更稳定。
第二个优势在材质。别的模型追求的是 RGB 贴图,以达到视觉效果相似。但 Seed3D 2.0 追求的是统一生成 PBR 材质,让金属、粗糙度、反光边界在不同光照下保持物理一致。这意味着生成结果不只是截图好看,而是更接近可进入真实渲染管线的资产。
更关键的是,Seed3D 2.0 现在不仅生成 3D 物体,还在生成的同时考虑:“我生成的物体能不能放进接下来的场景,比如游戏建模、训练机器人?” 所以它支持部件级拆分、关节建模、URDF 输出,也能做场景组合和空间布局推理。一个椅子不只是一个整体模型,而可以被拆成座面、靠背和底座。一个物体不只是摆在那里,而可以进入仿真、交互和运动系统。
因此它的真正优点,是把 3D 生成从内容生产工具,往具身智能、工业仿真和游戏资产基础设施推进了一步。虽然字节并没有大大方方承认 Seed3D 2.0 是世界模型,但从某种意义上来说,它算是半个世界模型——它能理解物体的空间结构、部件关系和可操作性,这正符合世界模型的特点。不过 Seed3D 2.0 不能持续预测世界演化,也不理解力、碰撞、摩擦、破坏、流体等物理过程,所以只算半个。
01 世界模型大战
关于世界模型这件事,得先从李飞飞讲起。4 月 14 日,李飞飞的世界模型公司 World Labs 发布了 Spark 2.0,这是一个 Web 端的 3D 高斯溅射渲染引擎。做什么用?即使你用手机浏览器,也能流畅打开那些包含上亿个粒子的 3D 世界。
过去做 3D 场景,要么用传统的三角网格,文件巨大、加载慢;要么就是视频,看完就没了。3D 高斯溅射是个新路子,用数百万个半透明的椭球体来表示场景,渲染效果接近照片级,但问题是数据量太大——一个稍微复杂点的场景就能有几千万个 splats,普通设备根本跑不动。
Spark 2.0 的核心突破在三个地方:
第一是 LoD 系统(细节层次技术)。它会预先生成不同分辨率的数据,你离得近就显示高精度,离得远就自动降低细节。第二是渐进式流式传输,场景不是一次性加载,而是边走边下载,就像看流媒体视频。第三是虚拟内存管理,在 GPU 里划出一块固定的内存池,最多容纳 1600 万个 splats,然后不断地把需要的数据块换进换出。
这套技术最早是 World Labs 为自己的产品 Marble 开发的——这是一个 AI 生成 3D 世界的工具,能根据文字或图片生成可以进入的 3D 场景。Spark 2.0 解决的就是“最后一公里”的问题:让生成的世界可以被分享、被嵌入网页、被任何人在任何设备上访问。
几乎在同一时间,英伟达发布了 Lyra 2.0。
Lyra 2.0 和李飞飞的 World Labs 虽说都是世界模型,但前者想解决的是长距离、大范围 3D 世界生成的一致性问题。现有的视频生成模型有两个致命缺陷:第一个叫“空间遗忘”,镜头走远了再回来,模型已经忘记之前那个地方长什么样,只能重新编一个,结果前后对不上。第二个叫“时间漂移”,自回归生成过程中,微小的误差不断累积,生成几百帧之后,颜色、结构都开始变形。
Lyra 2.0 的解决方案是维护一个空间记忆系统:每生成一帧,就把它的 3D 几何信息存下来。下次要生成新视角时,先从记忆里检索出相关的历史帧,建立 3D 对应关系,然后再让生成模型补充细节。这样既保证了空间一致性,又能利用生成模型的想象力。
更关键的是,Lyra 2.0 还用了一个叫“自增强历史训练”的技巧。传统训练用的都是干净的真实数据,但实际使用时,模型看到的是自己之前生成的、可能有瑕疵的画面。Lyra 2.0 在训练时故意喂给模型一些带有退化的历史帧,教它学会纠正漂移,而不是放大错误。
英伟达做这个不是为了让你生成视频,Lyra 2.0 的使用场景是机器人和自动驾驶。真实世界的训练数据太贵、太危险,很多极端场景根本采集不到。如果能用 AI 生成足够真实、足够一致的虚拟环境,就可以在里面反复训练、测试,然后再部署到现实中。Lyra 2.0 生成的世界可以直接导出为 3DGS 或 mesh,接入 Isaac Sim 这样的仿真平台。
就在李飞飞发布 Spark 2.0 的第二天,腾讯正式发布并开源了 HY-World 2.0。腾讯的路线和前两家都不一样——它要做的是真正的 3D 资产生成。什么叫 3D 资产?就是那些可以导入 Blender、Unity、Unreal Engine 的 mesh 文件和 3DGS 文件,可以被编辑、被复用、被二次开发的东西。
HY-World 2.0 的工作流程分四步:第一步是全景图生成,用 HY-Pano 2.0 模型把文字或单张图片扩展成 360 度全景。第二步是轨迹规划,用 WorldNav 算法分析全景图的几何和语义信息,自动规划出合理的相机运动路径。第三步是世界扩展,沿着规划好的轨迹,用 WorldStereo 2.0 模型生成多个关键帧视角,这些视角之间要保持空间一致性。第四步是世界组合,用 WorldMirror 2.0 把所有关键帧整合成统一的 3DGS 场景,再优化转换成高质量 mesh。
这套流程里最难的是 WorldStereo 2.0。它要做的是新视角生成,即给定一个起始视角和相机运动参数,生成目标视角的画面。难点在于既要精确跟随相机控制,又要保持视觉细节,还要和之前生成的区域在几何上完美衔接。腾讯的解决方案是引入记忆机制,让模型记住已经生成的区域的几何和外观特征,生成新区域时参考这些记忆,避免出现“穿帮”。
腾讯做这个的目的很明确——服务游戏和虚拟内容产业。传统的游戏场景制作需要美术、建模、贴图、灯光等多个环节,一个高质量场景可能需要几个人做几周。如果能用 AI 直接生成可编辑的 3D 资产,整个生产流程就被重构了。而且腾讯强调的是“可编辑”,生成出来的不是一段视频,而是可以在引擎里继续调整、继续开发的真实资产。
就在腾讯发布的几个小时后,阿里也扔出了自己的世界模型产品 Happy Oyster。四家完全不同的方向——阿里想做的是实时交互的世界生成。
Happy Oyster 有两个核心模式。第一个叫 Wandering(漫游模式):你给它一句话或一张图,它就生成一个具备物理一致性的完整空间,然后你可以用第一人称视角在里面自由移动,用 WASD 键控制方向,用鼠标控制镜头。场景会随着你的移动不断延展,物体位置稳定,光照跟随视角变化。目前支持最长 1 分钟的连续实时控制。
第二个模式叫 Directing(导演模式):更有意思,它不是生成完就结束,而是让你在生成过程中持续介入。视频播放到任意时刻,你都可以用文字、语音或图像指令来改变剧情、切换镜头、指挥角色。系统会实时响应,场景随之变化,然后继续往下演化。
阿里把 Happy Oyster 定位为“世界模拟器”。传统的文生视频是输入 prompt、等待渲染、得到成片,这是被动的。世界模拟器是主动的,它在持续地模拟世界的演化,用户可以随时介入、随时改变。这种交互方式更接近游戏,而不是看电影。不过 Happy Oyster 的输出是音视频流,不是 3D 资产。它的优势在于互动体验和生成速度,而不是可以导出到游戏引擎。这也反映了阿里的产品思路——瞄准的是内容创作、互动娱乐、虚拟直播这些场景,而不是游戏开发的底层工具链。
这个时间窗口里,国内还有两家公司值得一提:群核科技在 2025 年发布了空间生成模型 SpatialGen 和 Aholo 空间智能开放平台,瞄准室内设计和具身智能场景;极佳视界的 GigaWorld-1 在 3 月底的 WorldArena 评测中拿下全球第一,这是一个专门面向机器人训练的具身世界模型。
02 为什么都在这个时间点发
这不是简单的撞车。这几家公司,无论是产品成熟度、技术路线、目标场景,能都不一样的地方全都不一样,所以不可能碰巧在同一时间准备好。更合理的解释是,大家都在等一个信号,而李飞飞的 Spark 2.0 就是那个发令枪。
过去两年,AI 圈的主旋律是大语言模型。从 GPT-4 到 Claude,从 Gemini 到 DeepSeek,模型越来越大,上下文越来越长,推理能力越来越强。但到了 2026 年初,这条路开始有点难走了——各家的差距在快速缩小,继续讲“我的模型比你强 5%”已经很难激起市场兴趣。Agent 是去年的热点,但现在也进入了拥挤区。各家都在做能调用工具、能执行任务的 AI 助手,技术框架大同小异,真正的差异化越来越难。
市场需要一个新故事——一个足够大、足够性感、能够承载下一轮想象空间的新叙事。
世界模型就是这个新故事,听起来比视频生成更接近 AGI。更重要的是,世界模型是个足够宽泛的概念,可以把内容创作、游戏开发、机器人训练、自动驾驶、工业仿真、数字孪生这些完全不同的场景都装进去。
从技术层面看,世界模型的时机也确实到了。过去两年,几条关键技术线开始汇合:视频扩散模型提供了生成高质量动态画面的能力,3D 高斯溅射提供了高效的 3D 表示方法,NeRF 和三维重建技术提供了从 2D 到 3D 的转换路径,实时渲染技术提供了在消费级设备上打开大规模场景的可能,多模态理解让 AI 能够同时处理文字、图像、视频输入,物理仿真平台提供了训练和验证的环境。这些技术单独看都不是新东西,但它们现在“熟了”——视频模型的质量已经足够好,3DGS 的渲染速度已经足够快,多模态模型的理解能力已经足够强。当这些技术组合在一起,世界模型从概念变成了可以落地的产品。
事实上,李飞飞早在 2025 年 6 月 16 日旧金山的 YC AI Startup School 炉边谈话里,就已经把这条技术线索讲得很清楚。她回顾了自己从 ImageNet 一路走来的历程,说最早推动数据驱动视觉方法时,很多人还不相信大规模数据会改变 AI;2012 年卷积神经网络的爆发让她第一次强烈意识到,视觉模型不会停留在分类和识别,而是会继续走向图像描述、视觉叙事,最后一路走到生成模型。按这个脉络看,今天的世界模型不是突然冒出来的新概念,而是计算机视觉沿着“理解世界”这条主线自然演化到更高维度的结果。
更关键的是,她当时强调的核心词不是视频生成,也不是 3D 内容生产,而是空间智能。她的判断很直接:如果 AI 想真正接近 AGI,就不能只在语言里做概率预测,也不能只对二维像素做模式匹配——它必须理解三维空间、几何结构、物体关系和物理规律,知道世界是怎么被组织起来、又会如何随着时间变化。这也是为什么空间智能看起来像下一个前沿,或者我换一种方式来表达:世界模型就是整个行业长期低估、一直没真正啃下来的硬骨头。
从这个角度再看最近这一波世界模型热潮,很多事情就更容易理解了。大家争的表面上是渲染、生成、交互和资产化,底层争的其实都是谁更接近“让机器理解真实世界”这件事。语言当然重要,但语言本质上是人类压缩过的符号系统;三维世界却是连续的、动态的,充满遮挡、视角变化和物理约束。建模语言已经很难,建模空间往往更难。所以李飞飞当时那句话的分量很重——空间智能不是一个新标签,它是 AI 真正走向现实物理世界之前必须补上的一课。
但光有技术还不够,还需要有人来定义标准。谁先发布,谁就有机会影响行业对“世界模型”这个词的理解。李飞飞的 World Labs 在学术界和产业界都有巨大影响力,她发布 Spark 2.0,等于是给世界模型这个赛道敲响了开场锣。其他公司如果不跟进,就会在这个新叙事里失去话语权。所以腾讯、阿里、英伟达、字节都在最近发产品——不是因为产品刚好做完,而是因为这个时间窗口太关键了。晚一周发布,市场的注意力可能就被其他热点带走了;早一周发布,又没有李飞飞这个“发令枪”来引爆话题。
同时,大厂们也都在抢夺定义权。世界模型现在还是个模糊的概念——到底什么算世界模型、世界模型应该输出什么格式、应该用什么方式交互、应该接入什么样的工具链,这些都还没有定论。谁先占据某个关键位置,谁就有机会把自己的标准变成行业标准。
- World Labs 抢的是 Web 分发入口。如果未来所有的 3D 世界都通过 Spark 这样的渲染器在浏览器里打开,那 World Labs 就掌握了分发渠道。
- 腾讯抢的是 3D 资产生产入口。如果游戏公司都用 HY-World 2.0 来生成场景原型,那腾讯就掌握了内容生产工具。
- 阿里抢的是实时交互入口。如果互动内容都用 Happy Oyster 这样的世界模拟器来制作,那阿里就掌握了新的内容形态。
- 字节抢的是 3D 造物入口。如果未来游戏、机器人、工业仿真里的物体模型,都通过 Seed3D 2.0 从文字、图片或视频直接生成,并且自带几何、PBR 材质、部件拆分和关节结构,那字节就掌握了现实物体进入数字世界的第一道入口。
- 英伟达抢的是仿真训练入口。如果机器人公司都用 Lyra 2.0 生成的环境来训练模型,那英伟达就掌握了物理 AI 的基础设施。

所以本质上,大家通过不同的产品,抢占世界模型生态里的不同层级。谁定义了世界的生成格式,谁定义了世界的渲染方式,谁定义了世界的交互范式,谁定义了世界进入仿真的路径,谁就有可能成为下一代空间 AI 平台。
03 世界模型对企业的意义
还有一点:世界模型不是一个孤立的技术,要把它放在企业实际的生产上,才能看清楚这个技术到底是用来干嘛的。
对 World Labs 来说,世界模型是一个完整的产品闭环。Marble 负责生成 3D 世界,Spark 负责渲染和分发。李飞飞的野心不是做一个工具,而是做一个平台。未来如果有人想分享一个 3D 场景,不是发一个几 GB 的文件让你下载,而是发一个链接,你在手机浏览器里点开就能进入。这个体验类似于你现在分享抖音视频——你并不是真的把视频下载下来,只需把那个二维码发给小伙伴,他就能扫码直达视频原始网页。
这个商业模式的关键在于降低门槛。传统的 3D 内容创作需要专业软件、高性能硬件、复杂的技术知识。Marble 把创作门槛降到了“输入一句话”,Spark 又把观看门槛降到了“点开一个链接”。当创作和消费的门槛都足够低,3D 内容才可能像图片和视频一样成为互联网的基础设施。
对腾讯来说,世界模型是游戏和虚拟内容产业的生产力工具。腾讯是全球最大的游戏公司,其核心资产是游戏 IP 和内容生产能力。HY-World 2.0 瞄准的就是内容生产环节。传统游戏开发,一个高质量的 3A 游戏场景动辄需要几十个美术人员做几个月。即使是小规模的独立游戏,场景制作也是最耗时的环节之一。如果 AI 能生成可编辑的 3D 资产,美术团队就可以从重复性的建模工作中解放出来,把精力放在创意设计和细节打磨上。更重要的是,HY-World 2.0 生成的是真正的 3D 资产,不是视频。视频只能看,资产可以用——你可以在 Unity 里调整光照,在 Blender 里修改模型,在 Unreal 里添加物理效果。这种可编辑性是腾讯强调的核心价值,因为游戏开发需要的不是成品,而是可以继续加工的半成品。
对阿里来说,世界模型是内容形态的创新。阿里这几年在内容领域投入很大,从优酷到大麦,从直播到短视频,一直在寻找新的内容载体。Happy Oyster 代表的是一种介于视频和游戏之间的新内容形态。传统视频是线性的,你只能从头看到尾;游戏是开放的,但制作成本高、门槛高。Happy Oyster 想做的是“可交互的视频”或“低门槛的游戏”——用户不需要学习复杂的操作,只需用自然语言说出想法,场景就会响应。这种体验可能适合互动剧、品牌营销、虚拟陪伴、教育培训等场景。阿里的商业逻辑是流量和变现:如果 Happy Oyster 能创造出一种新的内容消费方式,就可能带来新的流量入口和变现模式——比如虚拟直播间,主播可以实时改变场景、召唤道具、创造剧情,观众的参与感比传统直播强得多;再比如品牌营销,用户可以在虚拟世界里探索产品、体验场景,沉浸式互动比传统广告更有吸引力。
回头看看字节的 Seed3D 2.0。它生成的是带几何结构、PBR 材质、部件拆分、关节关系的 3D 资产——换句话说,是“可以继续编辑、渲染、放进引擎、甚至接入仿真的东西”。这对字节尤其重要。字节的优势一直是内容分发和创作者生态,所有产品都在降低内容生产门槛:用剪映降低视频剪辑门槛,用抖音降低视频分发门槛,再用 Seedance 降低视频生成门槛。Seed3D 2.0 降低的是 3D 资产生产的门槛。未来如果短视频创作者想做一个 3D 商品展示,不需要找建模师;电商商家想把商品变成可旋转、可互动的模型,不需要重做一套 3D 流程;游戏团队想快速生成道具原型,也可以直接从图片或视频开始。所以对字节来说,Seed3D 2.0 的战略价值不是“我也有一个世界模型”,而是当内容互联网从二维视频走向三维空间,字节要继续掌握最低门槛、最高频的内容生产入口。
世界模型最终的竞争不会停留在模型能力上,而是会延伸到生态层面。 谁的输出格式被更多工具支持,谁的渲染器被更多开发者使用,谁的 API 被更多应用接入,谁能和 Unity、Unreal、Isaac、浏览器这些关键平台深度整合,谁就有机会成为这个领域的标准制定者。