云栈社区»论坛 › 站务中心「 Forum Service 」 › 目标条件下3D点运动预测：给AI一张图一句话，它能画出物体的未来 ...

发回帖发新帖

4144 积分	0 好友	546 主题

发消息

目标条件下3D点运动预测：给AI一张图一句话，它能画出物体的未来轨迹

发表于昨天 00:25 | 查看: 22| 回复: 0

视觉系统能“看”，但不会预测。给一个视觉模型一张图片，它能告诉你“这是一把水壶”，但你问它“接下来这把水壶会怎么动”，它回答不了。即使你补上一句“把水倒进锅里”，它仍然无法给出具体的运动轨迹——壶柄会从什么角度倾斜？壶嘴会移动到哪个位置？要过几秒才能抵达目标？

这个能力的缺失，绝不是一个纯粹的学术问题。

机器人要想抓取一个物体并放到另一个地方，它必须预测自己的动作会让物体产生怎样的位移；视频生成系统要想让画面里的物体“符合物理规律地运动”，也需要知道运动究竟会怎样发生。两个看似迥异的应用，其实都卡在同一个瓶颈上：没有一个好的 运动先验。

今天要聊的这篇登上HuggingFace日榜第二的工作，来自 Allen Institute for AI 和华盛顿大学的研究团队，解决的正是这个问题。

问题定义：用3D点来预测运动

论文把任务定义得非常清楚：goal-conditioned 3D point motion forecasting，也就是目标条件下的3D点运动预测。

给定以下输入：

一段短的历史视频（观察物体当前状态）
一组在目标物体上标注的3D查询点（“我要追踪这几个点”）
一条语言描述（如“把红色水壶放到托盘上”）

模型输出：这些查询点在未来的 $T$ 步时间内的3D坐标序列。

为什么选择用3D点来表示运动，而不是视频帧或者边界框？论文给出了三个理由，我认为都相当扎实。

其一，类别无关。人手、机械臂、水壶、椅子，统统用同一套3D点就能表示，不需要为每一类物体单独设计模板。

其二，视角稳定。同样一段“把碗放到桌上”的动作，从上方拍和从侧面拍得到的图像坐标截然不同，但转换到世界坐标系之后，3D轨迹是完全一致的。这意味着从不同摄像机拍摄的数据可以混在一起训练，不会因为视角变化而打架。

其三，可直接对接下游系统。机器人控制系统所需要的正是“物体会到哪里”，3D轨迹可以直接作为输入，不用再费劲从视频里重新提取一遍。

MolmoMotion架构图：RGB观测、2D查询点特征经Molmo2骨干网络处理后，分两路实现自回归预测和流匹配预测，输出离散化3D坐标或连续3D轨迹

图：MolmoMotion架构。共享输入包含Molmo2视觉语言骨干网络处理的图像token、动作描述token以及2D查询点token。自回归版本将3D坐标编码为文本序列进行预测；流匹配版本则在连续3D坐标空间上执行扩散预测。两种方案共享输入编码，仅在解码方式上有所区别。

数据：把互联网视频变成3D轨迹标注

数据，是这类工作里最难啃的骨头。

现有的带3D标注的视频数据集，不是规模太小，就是场景受限。互联网视频虽然海量且覆盖场景丰富，但偏偏缺少3D标注。论文的选择是搭建一套自动标注流程，把普通视频转换成带有3D轨迹标注的训练数据。

整个流程共分五步：语义目标定位、时序点对应追踪、度量3D提升、轨迹过滤平滑、视频片段裁剪。

语义定位使用MolmoPoint——AI2自家打造的2D点定位模型——在参考帧中找到物体位置；接着用SAM3生成物体掩码，并在掩码范围内通过K-means采样查询点。这个“先找点、再找掩码”的顺序设计得相当巧妙：直接让SAM根据文字描述找掩码很容易出错，因为“长方形的金色盒子”这类视觉描述常常太模糊；而先锁定“正在被移动的物体”这个行为特征，定位反而准确得多。

追踪环节则动用AllTracker在整段视频里跟踪2D点位置，随后用ViPE估计单目深度与相机几何信息，将2D轨迹提升到3D世界坐标。论文提到，这个“两步走”管道在3D精度上优于现有的端到端3D点追踪器（如SpatialTrackerV2等），算是一项扎实的工程收益。

过滤阶段采用基于MAD（中位绝对偏差）的离群值检测来剔除追踪质量欠佳的点，保留的轨迹再用Stereo4D中的平滑算法消除高频抖动。

最后的裁剪逻辑比较直接：计算每帧的物体运动分数（即查询点位移的中位数），裁出物体确实在运动的片段，去掉视频首尾的静止部分。

将这套流程运行在大约116万段公开视频上，最终得到 MolmoMotion-1M：涵盖736个独特动作动词、5692个独特被操作物体。这是迄今规模最大的、带有行动描述的3D点轨迹数据集。对于关注开源实战的朋友来说，这无疑是一份值得挖掘的宝藏。

模型：自回归与流匹配的双线并行

模型包含两个变体，核心差异在于解码方式。

自回归版本（MolmoMotion-AR）：将3D坐标序列化为毫米精度的离散化文本，当作结构化文本来预测。每个时间步的坐标都条件化在之前所有已生成的坐标上，这让模型有机会显式地建模时间依赖关系，因此生成的轨迹更加平滑。

流匹配版本（MolmoMotion-FM）：在连续坐标空间上做扩散预测，使用DiT（Diffusion Transformer）作为解码头，从高斯噪声出发，经过10步欧拉积分得到最终预测轨迹。这种方式更擅长捕捉运动的不确定性分布——在存在多种合理运动方式的情况下，表现优于自回归版本。

两个版本共享同样的输入编码：Molmo2（4B参数的视觉语言骨干模型）处理图像和文字token，2D查询点的特征则从视觉编码器的特征图中通过双线性插值采样获得。

训练分为两个阶段：第一阶段用3帧历史预测未来8帧，运行40K步；第二阶段将预测步数增加到32帧，继续训练10K步。

基准测试：学会“运动”和学会“画画”是两码事

基准测试是这篇论文最出彩的部分之一。

PointMotionBench包含742个片段、111个物体类别、61种运动类型，数据来源包括具备3D真值的HOT3D、WorldTrack数据集，以及人工验证过的DAVIS室外场景。

PointMotionBench定性结果：对比多组动作指令下真实轨迹与MolmoMotion预测轨迹的3D可视化，展示模型在不同运动模式上均能做出准确预测

图：PointMotionBench定性预测结果。MolmoMotion在“用粘毛滚筒滚蓝布”、“火烈鸟边走边将喙探入水中”、“把黄色玩具放进蓝碗”等多样化动作指令上，均能给出准确的3D运动轨迹预测。

几个数字值得关注：

MolmoMotion-AR（3帧输入）在HOT3D上的ADE（平均位移误差）为0.109米，比当时最好的方法ObjectForesight（0.129米）降低了约16%。
在WorldTrack上，ADE仅为0.143米，而Track2Act的对应数字是1.230米，差距接近一个数量级。

但更让我在意的发现是：非参数基线比不少学习型方法更强。静态基线（Static，即假设物体不动）和外推基线（Extrapolate，即线性外推）在多轮对比中压过了Wan2.2视频预测、Cosmos-Predict等模型。

这揭示了一个关键事实：“生成视觉上合理的视频”和“预测准确的度量运动”根本是两件不同的事。视频生成模型花费了大量参数去渲染光照、纹理和镜头效果，但这些对提升度量运动精度几乎没有帮助，甚至可能产生干扰。当我们谈论人工智能的运动理解能力时，光是“画得逼真”还远远不够。

迁移验证：同一个运动先验，从人手到机械臂

论文的第二块重要验证是关于机器人迁移——这是对“3D点轨迹可以作为可迁移先验”这一核心主张的直接检验。

直觉很简单：人手抓起一个水杯放到别处，和机械臂完成同样操作，执行方式截然不同，但水杯在3D空间里走过的轨迹却高度相似。如果模型真的学会了“水杯会怎样移动”，这个知识理应可以迁移给机械臂使用。

实验采用了MolmoSpaces中的Franka机器人pick-and-place任务（包含20K个训练episode），对比两种初始化策略：从Molmo2原始权重出发，以及从MolmoMotion-AR的权重出发。

机器人及视频生成迁移实验图：左为MolmoSpaces抓放任务成功率对比，MolmoMotion初始化显著优于Molmo2初始化；右为DROID真实机器人视频上轨迹预测误差对比，MolmoMotion起点更低且收敛更快

图：左侧为MolmoSpaces pick-and-place任务的成功率随训练步数变化曲线——MolmoMotion初始化在10K步已达51%，而Molmo2初始化同一步数仅19%，最终平均成功率为76.3%对56.0%。右侧为在DROID真实机器人视频上微调后的轨迹预测误差，MolmoMotion起点更低、收敛更快。

最终平均成功率：MolmoMotion初始化达到76.3%，而Molmo2初始化只有56.0%，提升超过20个百分点。在未见过的物体和场景上，两种初始化的差距拉得更大，这说明迁移带来的改善源于真正的泛化能力，而非对训练场景的机械记忆。

值得一提的是训练效率：仅在10K步训练时，MolmoMotion初始化就已经达到51%的成功率，而Molmo2初始化仅有19%——训练效率大约提高了2.7倍。

在真实机器人实验中，团队还基于DROID数据集的单目相机视频微调了MolmoMotion，用于预测目标物体的3D轨迹（作为规划依据而非直接控制信号）。结果是，与Molmo2初始化相比，MolmoMotion的起点测试误差更低，收敛速度明显更快。

视频生成验证：一个有意义的开端，但结论仍需克制

第三块验证是视频生成，不过比起前两块，这里的结论偏弱一些，有必要客观地说清楚。

思路是这样：将MolmoMotion预测的3D轨迹作为控制信号，接入DaS——一个基于CogVideoX-5B、接受3D轨迹条件的image-to-video模型。对比对象是CogVideoX-5B（无轨迹条件）和Wan2.2-I2V-A14B（参数量大得多）。

在VBench的五个视频质量指标上（时序一致性、主体一致性、运动平滑度、动态程度、背景一致性），DaS+MolmoMotion组合赢了CogVideoX-5B的全部指标，也赢了Wan2.2-A14B的其中四个。

但这里有一个需要留意的地方：DaS本身是专门为3D轨迹条件设计的模型，加了一层Molmo2的轨迹信息后比原版CogVideoX更优——这个比较是成立的。然而，拿带有轨迹控制的DaS去和无轨迹控制的Wan2.2比，本质上在比较“带有控制信号的小模型”与“不带控制信号的大模型”，二者并不可严格对等。论文本身也没有过度渲染这部分，仅将其定性为一次关于控制信号的初步验证。

总结：统一运动先验的价值与局限

在我看来，这篇工作最有价值的贡献可以归结为两点。

第一，把“运动先验”从类别特定推进到了类别无关。 过去的人体姿态估计、手部追踪、6-DoF物体姿态估计，每个都是为特定类别量身打造的模型，换一个类别就得推倒重来。MolmoMotion用同一套系统处理人手、机械臂末端执行器、椅子乃至动物，这种统一性本身就蕴含着巨大的复用潜力。

第二，那条可扩展的数据标注流程。 MolmoMotion-1M的构建方式具备天然的扩展性——原则上可以把任意视频数据集转换成3D轨迹标注，其天花板取决于原始视频数据的规模和质量。这笔耗费，比靠人力标注3D运动要便宜好几个数量级。

局限也同样明显。每次预测仅采样8个查询点（受限于Molmo2的上下文长度），这对于需要密集几何表示的物体来说实在太过稀疏，面对形变复杂的软体或流体，效果恐怕会很差。机器人实验目前只覆盖了pick-and-place这一种任务，真正的闭环机器人验证尚未开展。视频生成那块还处于初步阶段，离成熟应用仍有距离。

顺着这个方向看下去，值得我们保持关注的课题大概包括：能不能支持更密集的点采样？能不能引入接触力这类超出纯视觉模态的信号？以及，这套方法在完全不同的下游任务上——比如人体动作预测、自动驾驶中的行人轨迹预测——究竟能发挥多大作用？

代码、数据和模型已开源：https://github.com/allenai/molmo-motion

arxiv: 2606.18558 | Allen Institute for AI + 华盛顿大学 + UNC-Chapel Hill

上一篇：半夜替家人搜症状，AI说没事！Claude Fable刚被美国政府封杀
下一篇：告别JS！5个现代CSS原生技巧搞定3D视差与锚点高亮

3D点运动预测, 计算机视觉, 深度学习, 机器人, 开源数据集