找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4144

积分

0

好友

546

主题
发表于 昨天 00:25 | 查看: 22| 回复: 0

视觉系统能“看”,但不会预测。给一个视觉模型一张图片,它能告诉你“这是一把水壶”,但你问它“接下来这把水壶会怎么动”,它回答不了。即使你补上一句“把水倒进锅里”,它仍然无法给出具体的运动轨迹——壶柄会从什么角度倾斜?壶嘴会移动到哪个位置?要过几秒才能抵达目标?

这个能力的缺失,绝不是一个纯粹的学术问题。

机器人要想抓取一个物体并放到另一个地方,它必须预测自己的动作会让物体产生怎样的位移;视频生成系统要想让画面里的物体“符合物理规律地运动”,也需要知道运动究竟会怎样发生。两个看似迥异的应用,其实都卡在同一个瓶颈上:没有一个好的 运动先验

今天要聊的这篇登上HuggingFace日榜第二的工作,来自 Allen Institute for AI 和华盛顿大学的研究团队,解决的正是这个问题。

问题定义:用3D点来预测运动

论文把任务定义得非常清楚:goal-conditioned 3D point motion forecasting,也就是目标条件下的3D点运动预测。

给定以下输入:

  • 一段短的历史视频(观察物体当前状态)
  • 一组在目标物体上标注的3D查询点(“我要追踪这几个点”)
  • 一条语言描述(如“把红色水壶放到托盘上”)

模型输出:这些查询点在未来的 $T$ 步时间内的3D坐标序列。

为什么选择用3D点来表示运动,而不是视频帧或者边界框?论文给出了三个理由,我认为都相当扎实。

其一,类别无关。人手、机械臂、水壶、椅子,统统用同一套3D点就能表示,不需要为每一类物体单独设计模板。

其二,视角稳定。同样一段“把碗放到桌上”的动作,从上方拍和从侧面拍得到的图像坐标截然不同,但转换到世界坐标系之后,3D轨迹是完全一致的。这意味着从不同摄像机拍摄的数据可以混在一起训练,不会因为视角变化而打架。

其三,可直接对接下游系统。机器人控制系统所需要的正是“物体会到哪里”,3D轨迹可以直接作为输入,不用再费劲从视频里重新提取一遍。

MolmoMotion架构图:RGB观测、2D查询点特征经Molmo2骨干网络处理后,分两路实现自回归预测和流匹配预测,输出离散化3D坐标或连续3D轨迹

图:MolmoMotion架构。共享输入包含Molmo2视觉语言骨干网络处理的图像token、动作描述token以及2D查询点token。自回归版本将3D坐标编码为文本序列进行预测;流匹配版本则在连续3D坐标空间上执行扩散预测。两种方案共享输入编码,仅在解码方式上有所区别。

数据:把互联网视频变成3D轨迹标注

数据,是这类工作里最难啃的骨头。

现有的带3D标注的视频数据集,不是规模太小,就是场景受限。互联网视频虽然海量且覆盖场景丰富,但偏偏缺少3D标注。论文的选择是搭建一套自动标注流程,把普通视频转换成带有3D轨迹标注的训练数据。

整个流程共分五步:语义目标定位、时序点对应追踪、度量3D提升、轨迹过滤平滑、视频片段裁剪。

语义定位使用MolmoPoint——AI2自家打造的2D点定位模型——在参考帧中找到物体位置;接着用SAM3生成物体掩码,并在掩码范围内通过K-means采样查询点。这个“先找点、再找掩码”的顺序设计得相当巧妙:直接让SAM根据文字描述找掩码很容易出错,因为“长方形的金色盒子”这类视觉描述常常太模糊;而先锁定“正在被移动的物体”这个行为特征,定位反而准确得多。

追踪环节则动用AllTracker在整段视频里跟踪2D点位置,随后用ViPE估计单目深度与相机几何信息,将2D轨迹提升到3D世界坐标。论文提到,这个“两步走”管道在3D精度上优于现有的端到端3D点追踪器(如SpatialTrackerV2等),算是一项扎实的工程收益。

过滤阶段采用基于MAD(中位绝对偏差)的离群值检测来剔除追踪质量欠佳的点,保留的轨迹再用Stereo4D中的平滑算法消除高频抖动。

最后的裁剪逻辑比较直接:计算每帧的物体运动分数(即查询点位移的中位数),裁出物体确实在运动的片段,去掉视频首尾的静止部分。

将这套流程运行在大约116万段公开视频上,最终得到 MolmoMotion-1M:涵盖736个独特动作动词、5692个独特被操作物体。这是迄今规模最大的、带有行动描述的3D点轨迹数据集。对于关注开源实战的朋友来说,这无疑是一份值得挖掘的宝藏。

模型:自回归与流匹配的双线并行

模型包含两个变体,核心差异在于解码方式。

自回归版本(MolmoMotion-AR):将3D坐标序列化为毫米精度的离散化文本,当作结构化文本来预测。每个时间步的坐标都条件化在之前所有已生成的坐标上,这让模型有机会显式地建模时间依赖关系,因此生成的轨迹更加平滑。

流匹配版本(MolmoMotion-FM):在连续坐标空间上做扩散预测,使用DiT(Diffusion Transformer)作为解码头,从高斯噪声出发,经过10步欧拉积分得到最终预测轨迹。这种方式更擅长捕捉运动的不确定性分布——在存在多种合理运动方式的情况下,表现优于自回归版本。

两个版本共享同样的输入编码:Molmo2(4B参数的视觉语言骨干模型)处理图像和文字token,2D查询点的特征则从视觉编码器的特征图中通过双线性插值采样获得。

训练分为两个阶段:第一阶段用3帧历史预测未来8帧,运行40K步;第二阶段将预测步数增加到32帧,继续训练10K步。

基准测试:学会“运动”和学会“画画”是两码事

基准测试是这篇论文最出彩的部分之一。

PointMotionBench包含742个片段、111个物体类别、61种运动类型,数据来源包括具备3D真值的HOT3D、WorldTrack数据集,以及人工验证过的DAVIS室外场景。

PointMotionBench定性结果:对比多组动作指令下真实轨迹与MolmoMotion预测轨迹的3D可视化,展示模型在不同运动模式上均能做出准确预测

图:PointMotionBench定性预测结果。MolmoMotion在“用粘毛滚筒滚蓝布”、“火烈鸟边走边将喙探入水中”、“把黄色玩具放进蓝碗”等多样化动作指令上,均能给出准确的3D运动轨迹预测。

几个数字值得关注:

  • MolmoMotion-AR(3帧输入)在HOT3D上的ADE(平均位移误差)为0.109米,比当时最好的方法ObjectForesight(0.129米)降低了约16%。
  • 在WorldTrack上,ADE仅为0.143米,而Track2Act的对应数字是1.230米,差距接近一个数量级。

但更让我在意的发现是:非参数基线比不少学习型方法更强。静态基线(Static,即假设物体不动)和外推基线(Extrapolate,即线性外推)在多轮对比中压过了Wan2.2视频预测、Cosmos-Predict等模型。

这揭示了一个关键事实:“生成视觉上合理的视频”和“预测准确的度量运动”根本是两件不同的事。视频生成模型花费了大量参数去渲染光照、纹理和镜头效果,但这些对提升度量运动精度几乎没有帮助,甚至可能产生干扰。当我们谈论人工智能的运动理解能力时,光是“画得逼真”还远远不够。

迁移验证:同一个运动先验,从人手到机械臂

论文的第二块重要验证是关于机器人迁移——这是对“3D点轨迹可以作为可迁移先验”这一核心主张的直接检验。

直觉很简单:人手抓起一个水杯放到别处,和机械臂完成同样操作,执行方式截然不同,但水杯在3D空间里走过的轨迹却高度相似。如果模型真的学会了“水杯会怎样移动”,这个知识理应可以迁移给机械臂使用。

实验采用了MolmoSpaces中的Franka机器人pick-and-place任务(包含20K个训练episode),对比两种初始化策略:从Molmo2原始权重出发,以及从MolmoMotion-AR的权重出发。

机器人及视频生成迁移实验图:左为MolmoSpaces抓放任务成功率对比,MolmoMotion初始化显著优于Molmo2初始化;右为DROID真实机器人视频上轨迹预测误差对比,MolmoMotion起点更低且收敛更快

图:左侧为MolmoSpaces pick-and-place任务的成功率随训练步数变化曲线——MolmoMotion初始化在10K步已达51%,而Molmo2初始化同一步数仅19%,最终平均成功率为76.3%对56.0%。右侧为在DROID真实机器人视频上微调后的轨迹预测误差,MolmoMotion起点更低、收敛更快。

最终平均成功率:MolmoMotion初始化达到76.3%,而Molmo2初始化只有56.0%,提升超过20个百分点。在未见过的物体和场景上,两种初始化的差距拉得更大,这说明迁移带来的改善源于真正的泛化能力,而非对训练场景的机械记忆。

值得一提的是训练效率:仅在10K步训练时,MolmoMotion初始化就已经达到51%的成功率,而Molmo2初始化仅有19%——训练效率大约提高了2.7倍。

在真实机器人实验中,团队还基于DROID数据集的单目相机视频微调了MolmoMotion,用于预测目标物体的3D轨迹(作为规划依据而非直接控制信号)。结果是,与Molmo2初始化相比,MolmoMotion的起点测试误差更低,收敛速度明显更快。

视频生成验证:一个有意义的开端,但结论仍需克制

第三块验证是视频生成,不过比起前两块,这里的结论偏弱一些,有必要客观地说清楚。

思路是这样:将MolmoMotion预测的3D轨迹作为控制信号,接入DaS——一个基于CogVideoX-5B、接受3D轨迹条件的image-to-video模型。对比对象是CogVideoX-5B(无轨迹条件)和Wan2.2-I2V-A14B(参数量大得多)。

在VBench的五个视频质量指标上(时序一致性、主体一致性、运动平滑度、动态程度、背景一致性),DaS+MolmoMotion组合赢了CogVideoX-5B的全部指标,也赢了Wan2.2-A14B的其中四个。

但这里有一个需要留意的地方:DaS本身是专门为3D轨迹条件设计的模型,加了一层Molmo2的轨迹信息后比原版CogVideoX更优——这个比较是成立的。然而,拿带有轨迹控制的DaS去和无轨迹控制的Wan2.2比,本质上在比较“带有控制信号的小模型”与“不带控制信号的大模型”,二者并不可严格对等。论文本身也没有过度渲染这部分,仅将其定性为一次关于控制信号的初步验证。

总结:统一运动先验的价值与局限

在我看来,这篇工作最有价值的贡献可以归结为两点。

第一,把“运动先验”从类别特定推进到了类别无关。 过去的人体姿态估计、手部追踪、6-DoF物体姿态估计,每个都是为特定类别量身打造的模型,换一个类别就得推倒重来。MolmoMotion用同一套系统处理人手、机械臂末端执行器、椅子乃至动物,这种统一性本身就蕴含着巨大的复用潜力。

第二,那条可扩展的数据标注流程。 MolmoMotion-1M的构建方式具备天然的扩展性——原则上可以把任意视频数据集转换成3D轨迹标注,其天花板取决于原始视频数据的规模和质量。这笔耗费,比靠人力标注3D运动要便宜好几个数量级。

局限也同样明显。每次预测仅采样8个查询点(受限于Molmo2的上下文长度),这对于需要密集几何表示的物体来说实在太过稀疏,面对形变复杂的软体或流体,效果恐怕会很差。机器人实验目前只覆盖了pick-and-place这一种任务,真正的闭环机器人验证尚未开展。视频生成那块还处于初步阶段,离成熟应用仍有距离。

顺着这个方向看下去,值得我们保持关注的课题大概包括:能不能支持更密集的点采样?能不能引入接触力这类超出纯视觉模态的信号?以及,这套方法在完全不同的下游任务上——比如人体动作预测、自动驾驶中的行人轨迹预测——究竟能发挥多大作用?

代码、数据和模型已开源:https://github.com/allenai/molmo-motion

arxiv: 2606.18558 | Allen Institute for AI + 华盛顿大学 + UNC-Chapel Hill




上一篇:半夜替家人搜症状,AI说没事!Claude Fable刚被美国政府封杀
下一篇:告别JS!5个现代CSS原生技巧搞定3D视差与锚点高亮
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-21 13:26 , Processed in 0.757252 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表