云栈社区»论坛 › 开源实战「 OpenSource 」 › CVPR 2026 WorldArena挑战赛启动，聚焦具身世界模型，高德开源AB ...

发回帖发新帖

5142 积分	0 好友	727 主题

发消息

[Python] CVPR 2026 WorldArena挑战赛启动，聚焦具身世界模型，高德开源ABot-PhysWorld基线

发表于 2026-4-13 05:00:08 | 查看: 725| 回复: 0

过去两年，从Sora到Veo，再到Cosmos，视频生成模型在“视觉逼真”这条路上飞速狂奔，生成的画面已经足以以假乱真。但一个根本性的问题始终悬而未决：这些模型真的“理解”了物理世界吗？目前还没有确切的答案。

事实上，当这些模型去生成机器人操作的视频时，“夹爪穿模、物体凭空消失、时序错乱”等物理违规现象比比皆是。从“看起来像”到“真能干活”，中间一直横亘着一条技术实现的鸿沟。究竟什么样的模型才具备真正的实用性？一场全球性的技术竞赛正在围绕这个问题展开——CVPR 2026 WorldArena Challenge。

CVPR 2026 WorldArena Challenge 赛事海报

WorldArena Challenge：世界模型的“大考”来了

WorldArena Challenge是依托CVPR 2026 Video World Model Workshop举办的国际挑战赛，由高德地图视觉技术中心（AMAP CV Lab）、流形空间（Manifold.ai）和清华大学牵头，联合普林斯顿大学、新加坡国立大学、香港大学等全球顶尖学术机构共同主办。

与此前的世界模型评测不同，WorldArena的核心理念可以用四个字概括：“真能干活”。评测体系不仅关注视频“好不好看”，更聚焦于生成的内容是否遵循物理规律、是否能支撑机器人的实际操作。比赛基于清华大学等8所顶尖高校联合研发的WorldArena Benchmark，涵盖16大核心指标和3大真实应用任务，旨在推动人工智能从“视觉逼真”向“功能可用”转型。此次比赛设置了以下两个赛道，参赛团队可根据研究方向选择单一赛道或双赛道并行参与。

赛道一：视频质量评估。该赛道评估世界模型在视频生成层面的综合感知质量——不是简单地看“画面漂不漂亮”，而是从视觉质量、动作质量、内容一致性、物理法则遵循度、可控性和3D准确性六大维度，通过16项量化指标展开全方位评测。最终通过EWMScore整合为统一的综合分数排名。简单说，不是比谁的视频最好看，而是比谁的视频最“合理”。

WorldArena 六大评估维度详解

赛道二：具身任务功能性。这是WorldArena的核心创新方向，首次将评测延伸至真实的具身任务执行层面，围绕世界模型在强化学习与仿真中的三大核心使用价值展开评估：

数据合成引擎：能否生成有效提升策略模型性能的合成数据。
策略评估器：能否替代物理仿真器准确评估策略。
行动规划器：能否直接规划出可执行的动作序列。

赛道二将率先开放数据合成引擎与策略评估器的提交通道，对于排名靠前的方案，后续将引入行动规划器进行额外加权打分，以全面验证模型的实用价值。

基于世界模型的强化学习与仿真系统架构图

即刻上手：高性能开源世界模型已就位

为提升社区创新活力、降低参赛门槛，赛事主办方之一的高德已将其世界模型 ABot-PhysWorld 完全开源。该模型目前在WorldArena Leaderboard上排名领先，为参赛者提供了一个高起点的基线模型，可以直接在此基础上进行训练和优化。

ABot-PhysWorld是高德即将发布的ABot-World系列的首个子工作，聚焦于具身场景下的物理一致性视频生成。与现有模型追求“视觉合理性”不同，ABot-PhysWorld的核心目标是“物理真实性”——让AI生成的不仅是连续帧，而是符合物理规律的可行操作序列。

WorldArena 官方排行榜 (ABot-PhysWorld位列第一)

在技术实现上，该模型取得了多项关键突破：

四维泛化数据：从300万原始数据清洗至30万高质量SFT数据，覆盖本体泛化（不同机器人形态）、任务泛化（50+ 任务类型）、场景泛化（10+ 场景）和物体泛化（1000+ 物体类别），确保模型不偏向特定场景。
DPO偏好对齐：通过VLM-as-Judge构造1万条偏好数据对，使用Direct Preference Optimization让模型在“物理正确”和“物理错误”之间做出正确选择，显著减少穿模、变形等物理违规现象。
Dense Action Map精细控制：11万条动作控制数据，将机器人动作编码为空间稠密的控制信号，通过Context Blocks分支与视频latent融合，实现精细化动作注入。

在独立的PAI-Bench基准上，ABot-PhysWorld以 0.8491的综合得分 和 0.9306的领域得分 刷新SOTA，显著超越GigaWorld、Wanx-2.5、Veo 3.1等模型。它成功打破了业界长期存在的“视觉质量与物理合规性”之间的权衡——在保持极具竞争力的视觉质量的同时，实现了领域得分的大幅领先。

为保障赛事公平性并加速社区创新，主办方明确ABot-PhysWorld不参与最终评奖。该模型已开放完整模型权重、训练代码及数据处理流程，参赛团队可直接在此高起点基线上进行微调、数据策略优化或技术创新。这一举措无疑将极大地活跃技术社区在开源实战方面的讨论和创新。

赛程安排与参赛指南

赛事总奖金池超过14，000美元，各赛道分设一、二、三等奖。获奖团队将获得CVPR Workshop报告展示机会，顶尖队伍可跨赛道获奖。目前提交通道已开放并支持实时刷榜，最终提交截止时间为2026年5月25日，结果将于6月1日公布，并于6月4日在CVPR期间举行颁奖典礼。

参赛流程非常简洁，预计半天即可跑通第一个提交：

准备数据：从 Hugging Face 下载 val_dataset / test_dataset。
生成视频：用您的模型输出 ≥640×480、121帧 @24fps的视频（输入：初始帧 + 文本 / 动作）。
打包提交：压缩成 zip（视频文件夹 + model_README.md），在官网注册提交或发送至官方邮箱。

目前已有众多顶尖学术团队与产业机构报名参赛。你对这场聚焦物理真实性的世界模型大赛怎么看？欢迎在云栈社区的开发者广场分享你的见解，一起探讨具身智能的未来趋势。

CVPR 2026 WorldArena Challenge 详细赛程与奖项海报

上一篇：港大开源DeepTutor AI导师：五大模式共享上下文，基于RAG与个性化Agent
下一篇：陶哲轩亲测：用大语言模型个性化人设做物理教学，效果如何？

世界模型, 视频生成, 具身智能, CVPR, 强化学习

[Python] CVPR 2026 WorldArena挑战赛启动，聚焦具身世界模型，高德开源ABot-PhysWorld基线

WorldArena Challenge：世界模型的“大考”来了

即刻上手：高性能开源世界模型已就位

赛程安排与参赛指南

相关帖子