1700 积分	0 好友	226 主题

发消息

具身智能模型选型解析：VLM、VLA与DM0开源方案对比与实战思考

发表于昨天 03:08 | 查看: 3| 回复: 0

具身智能模型选型图文卡片

今年的春晚机器人出尽了风头，宛如一场小型机器人秀。然而，这些看似智能的表现，本质上仍是预设的动作序列：执行脚本时稳定流畅，但距离真正理解环境、听懂指令并自主决策，还有差距。像宇树这类厂商在运动控制和行为呈现上已经很强，下一步的关键在于补上能看、能懂、能决定的大脑。

具身智能系统可以拆成两层来看：理解层（VLM） 和 动作层（VLA）。理解层负责将现场画面转换为控制器可用的状态信号；动作层则负责将状态与指令结合，生成可执行的动作序列。当然，端到端的方案是理想目标，但将两层拆开并施加约束，更容易控制失败成本。

VLM（视觉语言模型）解决的是“看懂并说清楚”。对机器人而言，最理想的输出不是一段优美的自然语言，而是结构化的状态信息：目标位置、遮挡情况、可抓取点、执行条件是否满足，以及如何表达不确定性。固定这些字段后，VLM才能从会聊天转变为能对账的工具。

VLA（视觉语言动作模型）解决的是“看懂并做出来”。它直接输出动作信号（如动作序列、轨迹点、控制量等），难点不在于参数量，而在于实时性与连续性：推理稍慢，动作就会卡顿；动作不顺，硬件磨损和失败率便会上升。评价 VLA 时，不应只关注仿真成功率，更要关注真机上的延迟、平滑性以及失败后的恢复能力。

春节期间，多家公司开源了自己的 VLA 模型，为实际工程落地提供了宝贵资源。

一个是重庆原力灵机发布并开源的 DM0。他们自称“具身原生”，这听起来很宏大，实则意味着从第一天起就围绕真实机器人设定训练目标，提前将跨机型兼容性、实时性和精细操作等硬约束纳入训练计划。公开信息显示，其 2.4B（24 亿可调参数）版本在 RoboChallenge 的 30 多个桌面级真机任务上取得了很高的综合成绩。该模型在预训练阶段混合了操作、导航和全身控制三类核心任务，覆盖 UR、Franka 等多种构型，试图将“一机一模型”向通用策略推进一步。

DM0 另一个值得关注的点是其对精细操作的处理：许多 VLA 模型仍使用 224～384 的输入分辨率，这在理解任务中没问题，但在插拔、抓取等任务中，像素误差会被执行器放大，导致差一毫米就失败。他们的解决方案是将输入分辨率提升至 728×728，并宣称端到端反应时间做到 60ms，同时将二次开发门槛降低到消费级显卡可用。虽然这些指标的真实性有待验证，但这种思路更像是在构建可交付的系统，而非仅追求漂亮的论文 Demo。

第二条是小米开源的 Xiaomi-Robotics-0。它最吸引人的不是又一个 VLA 模型，而是其明确将实时执行（real-time execution）作为核心目标。公开资料强调了异步执行（asynchronous execution）和动作块（action chunk）的时间对齐，以解决推理延迟导致的动作不连贯问题。这类工作对真机开发者非常友好，因为它回答的不是“能不能做”，而是“能不能流畅地持续做”。

第三条是宇树开源的 UnifoLM-VLA-0。它的价值在于公开了完整的训练链路：除了模型权重，还开源了训练与推理代码，并整理了可用的数据与基座（如理解层的 VLM base、动作层的 VLA base）。这部分开源内容对工程落地更具实际意义，降低了小团队的入门门槛。

事实上，春节前我们团队也在探索使用 VLA 操控机械手，试图将一些看似简单但细节繁多的操作真正跑通。瓶颈往往不在规划能力，而在更基础的两件事——识别必须足够准确、链路必须足够快速：看错一步，后续动作再聪明也只是在流畅地执行错误；慢半拍，就会变成一顿一顿的卡顿，连续操作根本无法稳定运行。幸运的是，近期不少团队将 VLA 的模型、代码甚至训练链路都开源出来了，我们这类小团队终于有机会将问题收敛为可落地的事：用开源底座搭建最小闭环，再用自身场景数据进行蒸馏或微调，训练出更小、更快、更贴近任务分布的模型，从而将准确性和时延一起提升到可交付的水平。

参考链接

DM0 新闻（微信）：https://mp.weixin.qq.com/s/shAwz5uJhwlXeCW037-XNw
Xiaomi-Robotics-0（GitHub）：https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
Xiaomi-Robotics-0（arXiv）：https://arxiv.org/abs/2602.12684
UnifoLM-VLA-0（GitHub）：https://github.com/unitreerobotics/unifolm-vla
UnifoLM-VLA-0（Project Page）：https://unigen-x.github.io/unifolm-vla.github.io

对具身智能和开源技术感兴趣的开发者，可以访问云栈社区获取更多技术讨论和资源分享。

上一篇：OpenClaw AI Agent治理实战：从“误删”实例探讨AI偏好与风险防控
下一篇：AI学习中的相变理论：警惕工具带来的虚假自信与思维退化

具身智能, VLM, VLA, DM0, 开源

具身智能模型选型解析：VLM、VLA与DM0开源方案对比与实战思考

参考链接

相关帖子