云栈社区»论坛 › 站务中心「 Forum Service 」 › 字节入局世界模型：Seed3D 2.0拆解3D生成生意逻辑 ...

发回帖发新帖

4498 积分	0 好友	587 主题

发消息

字节入局世界模型：Seed3D 2.0拆解3D生成生意逻辑

发表于 3 小时前 | 查看: 2| 回复: 0

字节入局世界模型：Seed3D 2.0拆解3D生成生意逻辑 - 图片 - 1

这两天，世界模型这个概念在云栈社区非常火爆。腾讯、阿里相继入局之后，现在字节也正式“半入局”了。

字节发布了 Seed3D 2.0，这是一个 3D 生成模型。你给它文字、图片、多视角图，甚至视频，它就能帮你生成 3D 模型。

字节入局世界模型：Seed3D 2.0拆解3D生成生意逻辑 - 图片 - 2

Seed3D 2.0 的第一个优势，是把几何精度往生产级推了一步。过去的 3D 生成，最大问题不是不够惊艳，而是不够可靠——边缘发软、薄壁结构断裂、材质只在单一光照下好看。放进游戏引擎、仿真系统或机器人训练环境里，很快露馅。Seed3D 2.0 用两阶段 DiT 先搭整体结构，再补高精度细节，让锐边、曲面、复杂拓扑和薄结构更稳定。

第二个优势在材质。别的模型追求的是 RGB 贴图，以达到视觉效果相似。但 Seed3D 2.0 追求的是统一生成 PBR 材质，让金属、粗糙度、反光边界在不同光照下保持物理一致。这意味着生成结果不只是截图好看，而是更接近可进入真实渲染管线的资产。

更关键的是，Seed3D 2.0 现在不仅生成 3D 物体，还在生成的同时考虑：“我生成的物体能不能放进接下来的场景，比如游戏建模、训练机器人？” 所以它支持部件级拆分、关节建模、URDF 输出，也能做场景组合和空间布局推理。一个椅子不只是一个整体模型，而可以被拆成座面、靠背和底座。一个物体不只是摆在那里，而可以进入仿真、交互和运动系统。

因此它的真正优点，是把 3D 生成从内容生产工具，往具身智能、工业仿真和游戏资产基础设施推进了一步。虽然字节并没有大大方方承认 Seed3D 2.0 是世界模型，但从某种意义上来说，它算是半个世界模型——它能理解物体的空间结构、部件关系和可操作性，这正符合世界模型的特点。不过 Seed3D 2.0 不能持续预测世界演化，也不理解力、碰撞、摩擦、破坏、流体等物理过程，所以只算半个。

01 世界模型大战

关于世界模型这件事，得先从李飞飞讲起。4 月 14 日，李飞飞的世界模型公司 World Labs 发布了 Spark 2.0，这是一个 Web 端的 3D 高斯溅射渲染引擎。做什么用？即使你用手机浏览器，也能流畅打开那些包含上亿个粒子的 3D 世界。

过去做 3D 场景，要么用传统的三角网格，文件巨大、加载慢；要么就是视频，看完就没了。3D 高斯溅射是个新路子，用数百万个半透明的椭球体来表示场景，渲染效果接近照片级，但问题是数据量太大——一个稍微复杂点的场景就能有几千万个 splats，普通设备根本跑不动。

Spark 2.0 的核心突破在三个地方：

第一是 LoD 系统（细节层次技术）。它会预先生成不同分辨率的数据，你离得近就显示高精度，离得远就自动降低细节。第二是渐进式流式传输，场景不是一次性加载，而是边走边下载，就像看流媒体视频。第三是虚拟内存管理，在 GPU 里划出一块固定的内存池，最多容纳 1600 万个 splats，然后不断地把需要的数据块换进换出。

这套技术最早是 World Labs 为自己的产品 Marble 开发的——这是一个 AI 生成 3D 世界的工具，能根据文字或图片生成可以进入的 3D 场景。Spark 2.0 解决的就是“最后一公里”的问题：让生成的世界可以被分享、被嵌入网页、被任何人在任何设备上访问。

几乎在同一时间，英伟达发布了 Lyra 2.0。

Lyra 2.0 和李飞飞的 World Labs 虽说都是世界模型，但前者想解决的是长距离、大范围 3D 世界生成的一致性问题。现有的视频生成模型有两个致命缺陷：第一个叫“空间遗忘”，镜头走远了再回来，模型已经忘记之前那个地方长什么样，只能重新编一个，结果前后对不上。第二个叫“时间漂移”，自回归生成过程中，微小的误差不断累积，生成几百帧之后，颜色、结构都开始变形。

Lyra 2.0 的解决方案是维护一个空间记忆系统：每生成一帧，就把它的 3D 几何信息存下来。下次要生成新视角时，先从记忆里检索出相关的历史帧，建立 3D 对应关系，然后再让生成模型补充细节。这样既保证了空间一致性，又能利用生成模型的想象力。

更关键的是，Lyra 2.0 还用了一个叫“自增强历史训练”的技巧。传统训练用的都是干净的真实数据，但实际使用时，模型看到的是自己之前生成的、可能有瑕疵的画面。Lyra 2.0 在训练时故意喂给模型一些带有退化的历史帧，教它学会纠正漂移，而不是放大错误。

英伟达做这个不是为了让你生成视频，Lyra 2.0 的使用场景是机器人和自动驾驶。真实世界的训练数据太贵、太危险，很多极端场景根本采集不到。如果能用 AI 生成足够真实、足够一致的虚拟环境，就可以在里面反复训练、测试，然后再部署到现实中。Lyra 2.0 生成的世界可以直接导出为 3DGS 或 mesh，接入 Isaac Sim 这样的仿真平台。

就在李飞飞发布 Spark 2.0 的第二天，腾讯正式发布并开源了 HY-World 2.0。腾讯的路线和前两家都不一样——它要做的是真正的 3D 资产生成。什么叫 3D 资产？就是那些可以导入 Blender、Unity、Unreal Engine 的 mesh 文件和 3DGS 文件，可以被编辑、被复用、被二次开发的东西。

HY-World 2.0 的工作流程分四步：第一步是全景图生成，用 HY-Pano 2.0 模型把文字或单张图片扩展成 360 度全景。第二步是轨迹规划，用 WorldNav 算法分析全景图的几何和语义信息，自动规划出合理的相机运动路径。第三步是世界扩展，沿着规划好的轨迹，用 WorldStereo 2.0 模型生成多个关键帧视角，这些视角之间要保持空间一致性。第四步是世界组合，用 WorldMirror 2.0 把所有关键帧整合成统一的 3DGS 场景，再优化转换成高质量 mesh。

这套流程里最难的是 WorldStereo 2.0。它要做的是新视角生成，即给定一个起始视角和相机运动参数，生成目标视角的画面。难点在于既要精确跟随相机控制，又要保持视觉细节，还要和之前生成的区域在几何上完美衔接。腾讯的解决方案是引入记忆机制，让模型记住已经生成的区域的几何和外观特征，生成新区域时参考这些记忆，避免出现“穿帮”。

腾讯做这个的目的很明确——服务游戏和虚拟内容产业。传统的游戏场景制作需要美术、建模、贴图、灯光等多个环节，一个高质量场景可能需要几个人做几周。如果能用 AI 直接生成可编辑的 3D 资产，整个生产流程就被重构了。而且腾讯强调的是“可编辑”，生成出来的不是一段视频，而是可以在引擎里继续调整、继续开发的真实资产。

就在腾讯发布的几个小时后，阿里也扔出了自己的世界模型产品 Happy Oyster。四家完全不同的方向——阿里想做的是实时交互的世界生成。

Happy Oyster 有两个核心模式。第一个叫 Wandering（漫游模式）：你给它一句话或一张图，它就生成一个具备物理一致性的完整空间，然后你可以用第一人称视角在里面自由移动，用 WASD 键控制方向，用鼠标控制镜头。场景会随着你的移动不断延展，物体位置稳定，光照跟随视角变化。目前支持最长 1 分钟的连续实时控制。

第二个模式叫 Directing（导演模式）：更有意思，它不是生成完就结束，而是让你在生成过程中持续介入。视频播放到任意时刻，你都可以用文字、语音或图像指令来改变剧情、切换镜头、指挥角色。系统会实时响应，场景随之变化，然后继续往下演化。

阿里把 Happy Oyster 定位为“世界模拟器”。传统的文生视频是输入 prompt、等待渲染、得到成片，这是被动的。世界模拟器是主动的，它在持续地模拟世界的演化，用户可以随时介入、随时改变。这种交互方式更接近游戏，而不是看电影。不过 Happy Oyster 的输出是音视频流，不是 3D 资产。它的优势在于互动体验和生成速度，而不是可以导出到游戏引擎。这也反映了阿里的产品思路——瞄准的是内容创作、互动娱乐、虚拟直播这些场景，而不是游戏开发的底层工具链。

这个时间窗口里，国内还有两家公司值得一提：群核科技在 2025 年发布了空间生成模型 SpatialGen 和 Aholo 空间智能开放平台，瞄准室内设计和具身智能场景；极佳视界的 GigaWorld-1 在 3 月底的 WorldArena 评测中拿下全球第一，这是一个专门面向机器人训练的具身世界模型。

02 为什么都在这个时间点发

这不是简单的撞车。这几家公司，无论是产品成熟度、技术路线、目标场景，能都不一样的地方全都不一样，所以不可能碰巧在同一时间准备好。更合理的解释是，大家都在等一个信号，而李飞飞的 Spark 2.0 就是那个发令枪。

过去两年，AI 圈的主旋律是大语言模型。从 GPT-4 到 Claude，从 Gemini 到 DeepSeek，模型越来越大，上下文越来越长，推理能力越来越强。但到了 2026 年初，这条路开始有点难走了——各家的差距在快速缩小，继续讲“我的模型比你强 5%”已经很难激起市场兴趣。Agent 是去年的热点，但现在也进入了拥挤区。各家都在做能调用工具、能执行任务的 AI 助手，技术框架大同小异，真正的差异化越来越难。

市场需要一个新故事——一个足够大、足够性感、能够承载下一轮想象空间的新叙事。

世界模型就是这个新故事，听起来比视频生成更接近 AGI。更重要的是，世界模型是个足够宽泛的概念，可以把内容创作、游戏开发、机器人训练、自动驾驶、工业仿真、数字孪生这些完全不同的场景都装进去。

从技术层面看，世界模型的时机也确实到了。过去两年，几条关键技术线开始汇合：视频扩散模型提供了生成高质量动态画面的能力，3D 高斯溅射提供了高效的 3D 表示方法，NeRF 和三维重建技术提供了从 2D 到 3D 的转换路径，实时渲染技术提供了在消费级设备上打开大规模场景的可能，多模态理解让 AI 能够同时处理文字、图像、视频输入，物理仿真平台提供了训练和验证的环境。这些技术单独看都不是新东西，但它们现在“熟了”——视频模型的质量已经足够好，3DGS 的渲染速度已经足够快，多模态模型的理解能力已经足够强。当这些技术组合在一起，世界模型从概念变成了可以落地的产品。

事实上，李飞飞早在 2025 年 6 月 16 日旧金山的 YC AI Startup School 炉边谈话里，就已经把这条技术线索讲得很清楚。她回顾了自己从 ImageNet 一路走来的历程，说最早推动数据驱动视觉方法时，很多人还不相信大规模数据会改变 AI；2012 年卷积神经网络的爆发让她第一次强烈意识到，视觉模型不会停留在分类和识别，而是会继续走向图像描述、视觉叙事，最后一路走到生成模型。按这个脉络看，今天的世界模型不是突然冒出来的新概念，而是计算机视觉沿着“理解世界”这条主线自然演化到更高维度的结果。

更关键的是，她当时强调的核心词不是视频生成，也不是 3D 内容生产，而是空间智能。她的判断很直接：如果 AI 想真正接近 AGI，就不能只在语言里做概率预测，也不能只对二维像素做模式匹配——它必须理解三维空间、几何结构、物体关系和物理规律，知道世界是怎么被组织起来、又会如何随着时间变化。这也是为什么空间智能看起来像下一个前沿，或者我换一种方式来表达：世界模型就是整个行业长期低估、一直没真正啃下来的硬骨头。

从这个角度再看最近这一波世界模型热潮，很多事情就更容易理解了。大家争的表面上是渲染、生成、交互和资产化，底层争的其实都是谁更接近“让机器理解真实世界”这件事。语言当然重要，但语言本质上是人类压缩过的符号系统；三维世界却是连续的、动态的，充满遮挡、视角变化和物理约束。建模语言已经很难，建模空间往往更难。所以李飞飞当时那句话的分量很重——空间智能不是一个新标签，它是 AI 真正走向现实物理世界之前必须补上的一课。

但光有技术还不够，还需要有人来定义标准。谁先发布，谁就有机会影响行业对“世界模型”这个词的理解。李飞飞的 World Labs 在学术界和产业界都有巨大影响力，她发布 Spark 2.0，等于是给世界模型这个赛道敲响了开场锣。其他公司如果不跟进，就会在这个新叙事里失去话语权。所以腾讯、阿里、英伟达、字节都在最近发产品——不是因为产品刚好做完，而是因为这个时间窗口太关键了。晚一周发布，市场的注意力可能就被其他热点带走了；早一周发布，又没有李飞飞这个“发令枪”来引爆话题。

同时，大厂们也都在抢夺定义权。世界模型现在还是个模糊的概念——到底什么算世界模型、世界模型应该输出什么格式、应该用什么方式交互、应该接入什么样的工具链，这些都还没有定论。谁先占据某个关键位置，谁就有机会把自己的标准变成行业标准。

World Labs 抢的是 Web 分发入口。如果未来所有的 3D 世界都通过 Spark 这样的渲染器在浏览器里打开，那 World Labs 就掌握了分发渠道。
腾讯抢的是 3D 资产生产入口。如果游戏公司都用 HY-World 2.0 来生成场景原型，那腾讯就掌握了内容生产工具。
阿里抢的是实时交互入口。如果互动内容都用 Happy Oyster 这样的世界模拟器来制作，那阿里就掌握了新的内容形态。
字节抢的是 3D 造物入口。如果未来游戏、机器人、工业仿真里的物体模型，都通过 Seed3D 2.0 从文字、图片或视频直接生成，并且自带几何、PBR 材质、部件拆分和关节结构，那字节就掌握了现实物体进入数字世界的第一道入口。
英伟达抢的是仿真训练入口。如果机器人公司都用 Lyra 2.0 生成的环境来训练模型，那英伟达就掌握了物理 AI 的基础设施。

字节入局世界模型：Seed3D 2.0拆解3D生成生意逻辑 - 图片 - 3

所以本质上，大家通过不同的产品，抢占世界模型生态里的不同层级。谁定义了世界的生成格式，谁定义了世界的渲染方式，谁定义了世界的交互范式，谁定义了世界进入仿真的路径，谁就有可能成为下一代空间 AI 平台。

03 世界模型对企业的意义

还有一点：世界模型不是一个孤立的技术，要把它放在企业实际的生产上，才能看清楚这个技术到底是用来干嘛的。

对 World Labs 来说，世界模型是一个完整的产品闭环。Marble 负责生成 3D 世界，Spark 负责渲染和分发。李飞飞的野心不是做一个工具，而是做一个平台。未来如果有人想分享一个 3D 场景，不是发一个几 GB 的文件让你下载，而是发一个链接，你在手机浏览器里点开就能进入。这个体验类似于你现在分享抖音视频——你并不是真的把视频下载下来，只需把那个二维码发给小伙伴，他就能扫码直达视频原始网页。

这个商业模式的关键在于降低门槛。传统的 3D 内容创作需要专业软件、高性能硬件、复杂的技术知识。Marble 把创作门槛降到了“输入一句话”，Spark 又把观看门槛降到了“点开一个链接”。当创作和消费的门槛都足够低，3D 内容才可能像图片和视频一样成为互联网的基础设施。

对腾讯来说，世界模型是游戏和虚拟内容产业的生产力工具。腾讯是全球最大的游戏公司，其核心资产是游戏 IP 和内容生产能力。HY-World 2.0 瞄准的就是内容生产环节。传统游戏开发，一个高质量的 3A 游戏场景动辄需要几十个美术人员做几个月。即使是小规模的独立游戏，场景制作也是最耗时的环节之一。如果 AI 能生成可编辑的 3D 资产，美术团队就可以从重复性的建模工作中解放出来，把精力放在创意设计和细节打磨上。更重要的是，HY-World 2.0 生成的是真正的 3D 资产，不是视频。视频只能看，资产可以用——你可以在 Unity 里调整光照，在 Blender 里修改模型，在 Unreal 里添加物理效果。这种可编辑性是腾讯强调的核心价值，因为游戏开发需要的不是成品，而是可以继续加工的半成品。

对阿里来说，世界模型是内容形态的创新。阿里这几年在内容领域投入很大，从优酷到大麦，从直播到短视频，一直在寻找新的内容载体。Happy Oyster 代表的是一种介于视频和游戏之间的新内容形态。传统视频是线性的，你只能从头看到尾；游戏是开放的，但制作成本高、门槛高。Happy Oyster 想做的是“可交互的视频”或“低门槛的游戏”——用户不需要学习复杂的操作，只需用自然语言说出想法，场景就会响应。这种体验可能适合互动剧、品牌营销、虚拟陪伴、教育培训等场景。阿里的商业逻辑是流量和变现：如果 Happy Oyster 能创造出一种新的内容消费方式，就可能带来新的流量入口和变现模式——比如虚拟直播间，主播可以实时改变场景、召唤道具、创造剧情，观众的参与感比传统直播强得多；再比如品牌营销，用户可以在虚拟世界里探索产品、体验场景，沉浸式互动比传统广告更有吸引力。

回头看看字节的 Seed3D 2.0。它生成的是带几何结构、PBR 材质、部件拆分、关节关系的 3D 资产——换句话说，是“可以继续编辑、渲染、放进引擎、甚至接入仿真的东西”。这对字节尤其重要。字节的优势一直是内容分发和创作者生态，所有产品都在降低内容生产门槛：用剪映降低视频剪辑门槛，用抖音降低视频分发门槛，再用 Seedance 降低视频生成门槛。Seed3D 2.0 降低的是 3D 资产生产的门槛。未来如果短视频创作者想做一个 3D 商品展示，不需要找建模师；电商商家想把商品变成可旋转、可互动的模型，不需要重做一套 3D 流程；游戏团队想快速生成道具原型，也可以直接从图片或视频开始。所以对字节来说，Seed3D 2.0 的战略价值不是“我也有一个世界模型”，而是当内容互联网从二维视频走向三维空间，字节要继续掌握最低门槛、最高频的内容生产入口。

世界模型最终的竞争不会停留在模型能力上，而是会延伸到生态层面。 谁的输出格式被更多工具支持，谁的渲染器被更多开发者使用，谁的 API 被更多应用接入，谁能和 Unity、Unreal、Isaac、浏览器这些关键平台深度整合，谁就有机会成为这个领域的标准制定者。

上一篇：Claude Mythos安全神话引争议，白宫拟开放AI漏洞挖掘
下一篇：腾讯Hy3 preview上手体验：姚顺雨对上下文学习的新解法

3D生成, 世界模型, Seed3D, 空间智能, 字节跳动

字节入局世界模型：Seed3D 2.0拆解3D生成生意逻辑

01 世界模型大战

02 为什么都在这个时间点发

03 世界模型对企业的意义

相关帖子