云栈社区»论坛 › 回收站「 Recycle Bin 」 › 全模态世界模型架构竞逐：谁先跑通物理世界建模这条路？ ...

发回帖发新帖

5194 积分	0 好友	707 主题

发消息

全模态世界模型架构竞逐：谁先跑通物理世界建模这条路？

发表于 4 小时前 | 查看: 5| 回复: 0

过去18个月，世界模型成了AI圈子里竞争密度飙升最快的新战场。从全球科技巨头、视频生成公司、机器人玩家，到游戏引擎和自动驾驶企业，几乎没人愿意缺席这场牌局。

海外，DeepMind甩出Genie 2，靠生成下一帧预测为具身智能搭建训练场；英伟达手握Cosmos世界模型；李飞飞创办的World Labs估值已冲到50亿美元；图灵奖得主杨立昆也揣着10.3亿美元重金，专攻世界模型。国内，小鹏汽车上线X-World，智元机器人等也相继发布自研模型。4月，阿里、腾讯更是在48小时内先后下场，字节也在蓄势卡位——世界模型正式进入战略必争序列。

世界模型是具身智能与机器人落地的底层前提，是游戏、工业仿真、数字孪生下一代形态的入口，更是AI从“聊天”迈向“行动与造物”的分水岭。谁先建立对物理世界的完整建模能力，谁就可能握住下一代AI的话语权。当前，它在内容生成、影视特效、游戏开发、工业仿真等领域已显露出实打实的商业价值。

但热闹背后，一个基础问题始终悬着：世界模型到底是什么？

一、世界模型，AI下一个“必争之地”

说实话，今天宣称自己在做“世界模型”的公司，可能有一半以上压根没做——因为行业至今没个统一定义，十位专家能给出十种说法。

当下主流探索大致分三条路线。一是状态预测路线，以杨立昆为代表，构建显式状态空间，让模型学会预测下一个世界状态，这条路偏向具身智能，强调对物理规律的先验建模。二是3D交互路线，以李飞飞及Google为代表，致力于构建可交互的三维世界形态。三是从视频生成出发的路线，很多对世界的理解可以从大规模数据中直接涌现，不一定要预先搭显式状态空间，也不一定完全依赖强先验知识。

可这三条路线都没能回答一个关键问题：虽然能生成逼真的画面，但怎么真正理解物理世界，并做出精准的行动决策？

尤其在具身智能场景里，机器人得精准判断物体的材质、抓取力度，微操作偏差一毫米就可能给生产带来巨大损失。状态预测路线本质是统计建模，一遇到新工厂、新家居这类长尾变化，统计规律立马失效；3D交互路线虽能还原视觉空间，却推导不出摩擦力、接触力这些执行层面的物理量；视频生成路线则一味追求下一帧像素是否逼真，而不是动作序列是否有效。

这些问题暴露出一个共同的缺口：用单一或有限模态，根本没法完整描述一个全模态的物理世界。语言描述不了摩擦系数，视频捕捉不了力反馈。

“目前所有主流模型架构，都撑不起将来真正的世界模型，所以必须做架构创新。”智象未来创始人兼CEO梅涛直截了当地说。在众多路线争议中，智象未来的判断是：真正的世界模型必须是全模态的，能够任意输入、任意输出，与物理世界打通。下一代模型架构竞争的关键，不是单一模态能力的叠加，而是要从多模态走向全模态，以原生统一架构对物理世界进行原生、全模态的统一建模。

基于这一判断，2026年4月，智象未来正式发布了新一代原生全模态世界模型架构及图像大模型 HiDream-O1-Image，采用全球首创的UiT架构。这标志着智象未来进一步明晰了从视觉生成的多模态大模型走向原生全模态世界模型的技术路线。

智象未来全模态大模型HiDream-O1-Image，开源版本8B参数，闭源版本200B参数

作为该架构落地的首个重磅产品，图像大模型HiDream-O1-Image的闭源版本参数达到千亿级别，在六项业界标准Benchmark中达到SOTA，超越了Google的Nano Banana 2、GPT Image 1等主流模型。同时发布的还有8B开源版本，适配本地部署和低代码智能体调用场景。

智象未来联合创始人兼CTO姚霆解释，之所以选择先以图像大模型为切入点，是因为“图像是世界建模的空间基底，定格了现实世界瞬时时刻的完整状态信息”。在他眼里，图像不是独立于视频之外的单点能力，而是视频生成乃至通向原生全模态世界模型的关键入口。

从技术侧看，当前视频生成链路中，80%到90%的问题根源都出在前端图像阶段——图像没做好，视频绝对做不好。从成本侧考虑，图像也是最合适的Scale Up切入点。在智象未来的实践中，先以图片模型验证架构可行性，再将架构迁移至视频模型，可以把训练成本控制在行业平均水平的1/5到1/10。在UiT原生统一架构下，图像与视频训练还能协同进行、相互增强，为模型进一步走向全模态打下基础。

在全球技术版图中，智象未来与World Labs、Pika Labs、Physical Intelligence分属不同技术路径。

Pika以视频生成为核心产品方向，智象未来的目标则指向全模态世界模型。World Labs更强调空间建模与空间智能，而智象未来并不锚定于空间这一单一维度，而是在架构层面寻求全模态能力的原生统一。Physical Intelligence的切入点是机器人控制与动作智能，智象未来在现阶段并未从具身控制端直接进入，而是优先构建统一的生成式底座，以此打通对物理世界的表达、理解与重构能力。某种意义上，它更接近中国世界模型版图中一个重要的生成式能力方案。

二、十年视觉，专注架构创新

在通往全模态世界模型这条赛道上，不少玩家是趁着资本热潮入场的。智象未来进入这个领域的时间要早得多。

2017年，这支团队的核心力量还在微软亚洲研究院时，梅涛已带队提出TGANs-C，那是全球最早的“文本生成视频”模型之一。彼时距离Sora问世还有整整七年。当年那篇论文的作者，如今全都在智象承担核心基模研发工作。在视觉生成这条技术线上，他们积累已超过十年。

从微软离开后，团队加入京东，将视觉能力相继落地到京东商城APP上的拍照购“以图搜图”功能，以及物流仓里的智能机械臂等产品上。面对京东超1000万自营SKU中从易碎品到异形件的复杂品类，这套机械臂系统实现了毫秒级视觉识别与动作预测，精准识别并抓取超过10万种不同商品，单台设备分拣效率约510件/小时，且能7×24小时稳态运营。

团队由此攒下了视觉能力在工业场景落地的经验，也开始摸到这套能力的边界与上限。

2023年，ChatGPT引爆大模型浪潮，Midjourney让图像生成第一次大规模闯入大众视野。团队判断这个方向有“更大场景的可能性”，智象未来由此成立。

从2023年创立至今，智象未来在模型架构上保持着极快的迭代节奏，基本形成一年一代的演进节奏。作为国内最早布局多模态大模型的团队之一，智象发布了基于 DiT 架构的产品 vivago.ai，并在全球首次推出全新的“扩散自回归”（Diffusion + AR）模型架构。相比单一生成路径，这一范式更强调性能与效率的平衡，在生成质量、时序一致性和可控性上持续突破行业标准。其背后，是智象核心技术团队对模型底层架构创新的长期坚持：每次更新都不是在原有架构上做简单增量优化，而是对底层逻辑的创新。

团队认为，有时候就是得做一些难而正确的事。在几个关键技术节点上，他们觉得都抓住了突破口，在某些时间节点甚至比同类方案早了3到6个月。这不是所有团队都能跨过去的门槛。

为什么要持续押注架构创新？梅涛给出的分析很直白：创业公司没有大厂的生态优势和算力资源，所以不该简单走跟随路径，而要找到世界模型的关键节点，寻求独特创新。智象未来结合自身技术优势，聚焦底层模型架构，从图片生成模型、视频生成模型，转向原生全模态世界模型架构，靠模型架构创新拉高性能天花板，用更少的成本跑出更高的上限。

要理解这次原生全模态架构升级的意义，得先搞懂DiT的内在局限。

传统DiT的做法，是文字、图片、视频、动作各自独立编码，然后在隐空间里交互，再解码输出。多个模态分别编码、压缩、拼接，存在信息损失，这被认为是当前图像、视频生成中精度损耗与输出不可控的重要原因之一。

智象UiT架构的核心改变是：将文字、图片、视频、动作等的Token，以更接近原始信号的形式直接进入统一模型，实现原生全模态的统一编码与处理，让模型第一次具备跨模态的“连续理解能力”，而不是简单的模态对齐。梅涛强调，“不是今天有个模型就能自然做成世界模型，世界模型必须是一个原生全模态架构的问题”。

架构的持续创新之外，梅涛还给出一套判断标准——用来区分真正的世界模型与视觉模拟器，包含三要素：

原生全模态表达——能表达全世界所有模态的信息，包括视觉信息、动作信息、传感器信息、天气信息等等，而不只是某一类模态。
推演能力——能结合物理规律、因果关系去做可验证的推理，而不只是生成看起来合理的画面。
构造世界的能力——不只是model the world，而是mold the world，能构造和重塑世界，而不只是描述理解它。

简单说，要具备表达世界、推演世界、构造世界的能力。

HiDream-O1是智象向这三个方向迈出的第一步。它标志着智象开始从以视觉生成为主的产品形态，向面向物理世界建模的方向转型。梅涛没有回避这一步的阶段性，“它是我们在不断探索前沿技术过程中的一个阶段性认知。如果你想做世界模型，就一定要不断推动底层技术往前走”。

而就在HiDream-O1发布前不久，智象未来还与诺亦腾机器人宣布战略合作，通过“真实数据+生成式视频数据”的融合范式，共建高精度、规模化具身视频数据，把技术能力扎进了具体工程场景。

未来科技感AI训练环境，人形机器人与蓝色半透明人体模型互动，周围环绕传感设备和全息界面

具身智能的发展需要高质量多模态数据，但传统采集方式成本高、效率低，穿戴式动捕设备还容易对人体形态、遮挡关系产生干扰，形成明显的“Vision Gap”。智象未来与诺亦腾要填上这道沟。诺亦腾用高精度动捕设备采集真实物理反馈数据，智象未来则负责将这些原始传感数据进行百倍以上的精细化放大，预计年内将共同产出数万小时高质量具身智能视频训练数据。

普通通用视频生成模型往往以视觉效果为导向，容易出现内容幻觉或物理逻辑矛盾的问题。而智象未来的自研模型则能基于动捕数据进行高可控的生成式优化——既能确保每帧视频与底层操作数据精准匹配，又能极大丰富场景、光影及人体形态的复杂度，从而更贴合具身智能企业的高精度训练需求。

这种质变，划定了智象未来的战略分水岭：如果只停留在更高质量的视频生成层面，本质上还是在AIGC工具赛道内竞争；而更进一步打通原生全模态架构、真实动作数据、交互视频以及生命科学等更复杂场景，它很有可能在中国世界模型生态中占据更靠近底层的关键位置。

三、1+1+3：从模型架构创新到商业闭环

世界模型的架构迭代明确之后，下一个问题接踵而至：如何转化为可执行的商业？

智象未来在内部搭建起了一套 “1+1+3”业务架构：以1个HiDream系列原生全模态大模型为底座，1个HiHarness-Token Hub平台提供标准化模型能力输出，在此之上初步延伸出三大场景应用。

其中，HiHarness-Token Hub平台是今年技术上的第一优先级。它在底座与产品之间承担统一调度与能力编排的职能。这层中台汇集了模型能力、API能力、行业Know-how与Skill编排能力，同时集成第三方与开源模型。目前已对外开放300+ API，接入100+ KA客户，累计调用次数超30亿次，支持订阅制、行业定制及私有化MaaS服务。

“3”，则是围绕三大核心场景的AIGC产品线：

在AIGC社媒创作领域，面向专业创作者（OPC），打造一站式AI Agent创作工具 vivago.ai，通过自研3D video模型与推理加速，将特效生成提速至秒级，已覆盖全球超3000万专业用户。其中80%为海外用户，今年一季度单月新增用户就超过千万。

在AIGC商业营销领域，构建线上跨境电商短视频营销与线下营销的一体化产品能力。线上，HiBurst平台解决商家营销创意不足、素材生产效率低、跨平台适配成本高等难题，已成为TikTok前五大AI合作伙伴；线下，软硬件一体智能营销终端HiDreamFans已服务全国超万家实体店铺，今年一季度销售已超去年全年。

在AIGC影视创作领域，发布全球首个专业级AI影视创作协作智能体——“帧赞”，以电影级画质生成和“创意-分镜-成片”全流程打通为核心能力。目前智象已累计制作短漫剧超过5000分钟。采用帧赞作为AI技术支持的奇幻悬疑AI仿真人短剧《秦岭青铜诡事录》上线仅12小时，就快速升至腾讯视频竖屏热播榜第一，成为2026年AI短剧赛道标志性爆款。

一些新的业务线也在快速起势。除了前面提到在具身智能赛道的拓展，智象已与百图生科（BioMap）深度协同共建微观世界模型，用于分子动力学理解，赋能生物医药创新。

这一布局是智象未来“全模态世界模型”底座能力的自然外溢。行业人士观察到，很多具身智能公司低估了一件事：没有强视频底座，很难走远。而随着模型能力的升级，智象未来生成的视频精度已达毫米级，完全能满足具身智能训练大模型时对监控和标注的要求。梅涛进一步预测，未来，得益于在数百万小时视频数据上学到的规律，“如果要做一个端到端的具身智能模型，我们需要的数据小时数，可能只是一些公司的十分之一，甚至百分之一。”

从商业营销、社媒和影视创作，到具身智能，智象未来“3”的业务边界还在不断延展，而这最终都指向了这家公司对自身长期竞争力的深层思考：模型创新力、产品迭代力、商业生态力。三层之间相互依赖，任何一层单独成立，都不足以支撑一家长期创新的大模型技术公司。

从单一视觉到多模态，再到全模态统一表征，这不仅是世界模型进化的必经之路，更是通往AGI的关键里程碑。当行业逐渐达成共识——掌握全模态能力即掌握下一代智能的钥匙时，这场关于“物理世界建模”的终极命题，才刚刚拉开序幕。

上一篇：混淆矩阵详解：从二分类到多分类的模型评估与Python实现
下一篇：刻蚀形貌的决定因素：偏压、气体配比与腔体压力

世界模型, UiT架构, 具身智能, 模型架构创新, 视频生成

全模态世界模型架构竞逐：谁先跑通物理世界建模这条路？

一、世界模型，AI下一个“必争之地”

二、十年视觉，专注架构创新

三、1+1+3：从模型架构创新到商业闭环

相关帖子