找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3968

积分

0

好友

581

主题
发表于 2 小时前 | 查看: 4| 回复: 0

过去两年,从Sora到Veo,再到Cosmos,视频生成模型在“视觉逼真”这条路上飞速狂奔,生成的画面已经足以以假乱真。但一个根本性的问题始终悬而未决:这些模型真的“理解”了物理世界吗?目前还没有确切的答案。

事实上,当这些模型去生成机器人操作的视频时,“夹爪穿模、物体凭空消失、时序错乱”等物理违规现象比比皆是。从“看起来像”到“真能干活”,中间一直横亘着一条技术实现的鸿沟。究竟什么样的模型才具备真正的实用性?一场全球性的技术竞赛正在围绕这个问题展开——CVPR 2026 WorldArena Challenge

CVPR 2026 WorldArena Challenge 赛事海报

相关链接:

WorldArena Challenge:世界模型的“大考”来了

WorldArena Challenge是依托CVPR 2026 Video World Model Workshop举办的国际挑战赛,由高德地图视觉技术中心(AMAP CV Lab)、流形空间(Manifold.ai)和清华大学牵头,联合普林斯顿大学、新加坡国立大学、香港大学等全球顶尖学术机构共同主办。

与此前的世界模型评测不同,WorldArena的核心理念可以用四个字概括:“真能干活”。评测体系不仅关注视频“好不好看”,更聚焦于生成的内容是否遵循物理规律、是否能支撑机器人的实际操作。比赛基于清华大学等8所顶尖高校联合研发的WorldArena Benchmark,涵盖16大核心指标和3大真实应用任务,旨在推动人工智能从“视觉逼真”向“功能可用”转型。此次比赛设置了以下两个赛道,参赛团队可根据研究方向选择单一赛道或双赛道并行参与。

赛道一:视频质量评估。该赛道评估世界模型在视频生成层面的综合感知质量——不是简单地看“画面漂不漂亮”,而是从视觉质量、动作质量、内容一致性、物理法则遵循度、可控性和3D准确性六大维度,通过16项量化指标展开全方位评测。最终通过EWMScore整合为统一的综合分数排名。简单说,不是比谁的视频最好看,而是比谁的视频最“合理”。

WorldArena 六大评估维度详解

赛道二:具身任务功能性。这是WorldArena的核心创新方向,首次将评测延伸至真实的具身任务执行层面,围绕世界模型在强化学习与仿真中的三大核心使用价值展开评估:

  1. 数据合成引擎:能否生成有效提升策略模型性能的合成数据。
  2. 策略评估器:能否替代物理仿真器准确评估策略。
  3. 行动规划器:能否直接规划出可执行的动作序列。

赛道二将率先开放数据合成引擎与策略评估器的提交通道,对于排名靠前的方案,后续将引入行动规划器进行额外加权打分,以全面验证模型的实用价值。

基于世界模型的强化学习与仿真系统架构图

即刻上手:高性能开源世界模型已就位

为提升社区创新活力、降低参赛门槛,赛事主办方之一的高德已将其世界模型 ABot-PhysWorld 完全开源。该模型目前在WorldArena Leaderboard上排名领先,为参赛者提供了一个高起点的基线模型,可以直接在此基础上进行训练和优化。

ABot-PhysWorld是高德即将发布的ABot-World系列的首个子工作,聚焦于具身场景下的物理一致性视频生成。与现有模型追求“视觉合理性”不同,ABot-PhysWorld的核心目标是“物理真实性”——让AI生成的不仅是连续帧,而是符合物理规律的可行操作序列。

WorldArena 官方排行榜 (ABot-PhysWorld位列第一)

在技术实现上,该模型取得了多项关键突破:

  • 四维泛化数据:从300万原始数据清洗至30万高质量SFT数据,覆盖本体泛化(不同机器人形态)、任务泛化(50+ 任务类型)、场景泛化(10+ 场景)和物体泛化(1000+ 物体类别),确保模型不偏向特定场景。
  • DPO偏好对齐:通过VLM-as-Judge构造1万条偏好数据对,使用Direct Preference Optimization让模型在“物理正确”和“物理错误”之间做出正确选择,显著减少穿模、变形等物理违规现象。
  • Dense Action Map精细控制:11万条动作控制数据,将机器人动作编码为空间稠密的控制信号,通过Context Blocks分支与视频latent融合,实现精细化动作注入。

在独立的PAI-Bench基准上,ABot-PhysWorld以 0.8491的综合得分0.9306的领域得分 刷新SOTA,显著超越GigaWorld、Wanx-2.5、Veo 3.1等模型。它成功打破了业界长期存在的“视觉质量与物理合规性”之间的权衡——在保持极具竞争力的视觉质量的同时,实现了领域得分的大幅领先。

为保障赛事公平性并加速社区创新,主办方明确ABot-PhysWorld不参与最终评奖。该模型已开放完整模型权重、训练代码及数据处理流程,参赛团队可直接在此高起点基线上进行微调、数据策略优化或技术创新。这一举措无疑将极大地活跃技术社区在开源实战方面的讨论和创新。

赛程安排与参赛指南

赛事总奖金池超过14,000美元,各赛道分设一、二、三等奖。获奖团队将获得CVPR Workshop报告展示机会,顶尖队伍可跨赛道获奖。目前提交通道已开放并支持实时刷榜,最终提交截止时间为2026年5月25日,结果将于6月1日公布,并于6月4日在CVPR期间举行颁奖典礼。

参赛流程非常简洁,预计半天即可跑通第一个提交:

  1. 准备数据:从 Hugging Face 下载 val_dataset / test_dataset。
  2. 生成视频:用您的模型输出 ≥640×480、121帧 @24fps的视频(输入:初始帧 + 文本 / 动作)。
  3. 打包提交:压缩成 zip(视频文件夹 + model_README.md),在官网注册提交或发送至官方邮箱。

目前已有众多顶尖学术团队与产业机构报名参赛。你对这场聚焦物理真实性的世界模型大赛怎么看?欢迎在云栈社区的开发者广场分享你的见解,一起探讨具身智能的未来趋势。

CVPR 2026 WorldArena Challenge 详细赛程与奖项海报




上一篇:港大开源DeepTutor AI导师:五大模式共享上下文,基于RAG与个性化Agent
下一篇:陶哲轩亲测:用大语言模型个性化人设做物理教学,效果如何?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-13 07:54 , Processed in 0.718799 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表