
今年的春晚机器人出尽了风头,宛如一场小型机器人秀。然而,这些看似智能的表现,本质上仍是预设的动作序列:执行脚本时稳定流畅,但距离真正理解环境、听懂指令并自主决策,还有差距。像宇树这类厂商在运动控制和行为呈现上已经很强,下一步的关键在于补上能看、能懂、能决定的大脑。
具身智能系统可以拆成两层来看:理解层(VLM) 和 动作层(VLA)。理解层负责将现场画面转换为控制器可用的状态信号;动作层则负责将状态与指令结合,生成可执行的动作序列。当然,端到端的方案是理想目标,但将两层拆开并施加约束,更容易控制失败成本。
VLM(视觉语言模型)解决的是“看懂并说清楚”。对机器人而言,最理想的输出不是一段优美的自然语言,而是结构化的状态信息:目标位置、遮挡情况、可抓取点、执行条件是否满足,以及如何表达不确定性。固定这些字段后,VLM才能从会聊天转变为能对账的工具。
VLA(视觉语言动作模型)解决的是“看懂并做出来”。它直接输出动作信号(如动作序列、轨迹点、控制量等),难点不在于参数量,而在于实时性与连续性:推理稍慢,动作就会卡顿;动作不顺,硬件磨损和失败率便会上升。评价 VLA 时,不应只关注仿真成功率,更要关注真机上的延迟、平滑性以及失败后的恢复能力。
春节期间,多家公司开源了自己的 VLA 模型,为实际工程落地提供了宝贵资源。
一个是重庆原力灵机发布并开源的 DM0。他们自称“具身原生”,这听起来很宏大,实则意味着从第一天起就围绕真实机器人设定训练目标,提前将跨机型兼容性、实时性和精细操作等硬约束纳入训练计划。公开信息显示,其 2.4B(24 亿可调参数)版本在 RoboChallenge 的 30 多个桌面级真机任务上取得了很高的综合成绩。该模型在预训练阶段混合了操作、导航和全身控制三类核心任务,覆盖 UR、Franka 等多种构型,试图将“一机一模型”向通用策略推进一步。
DM0 另一个值得关注的点是其对精细操作的处理:许多 VLA 模型仍使用 224~384 的输入分辨率,这在理解任务中没问题,但在插拔、抓取等任务中,像素误差会被执行器放大,导致差一毫米就失败。他们的解决方案是将输入分辨率提升至 728×728,并宣称端到端反应时间做到 60ms,同时将二次开发门槛降低到消费级显卡可用。虽然这些指标的真实性有待验证,但这种思路更像是在构建可交付的系统,而非仅追求漂亮的论文 Demo。
第二条是小米开源的 Xiaomi-Robotics-0。它最吸引人的不是又一个 VLA 模型,而是其明确将实时执行(real-time execution)作为核心目标。公开资料强调了异步执行(asynchronous execution)和动作块(action chunk)的时间对齐,以解决推理延迟导致的动作不连贯问题。这类工作对真机开发者非常友好,因为它回答的不是“能不能做”,而是“能不能流畅地持续做”。
第三条是宇树开源的 UnifoLM-VLA-0。它的价值在于公开了完整的训练链路:除了模型权重,还开源了训练与推理代码,并整理了可用的数据与基座(如理解层的 VLM base、动作层的 VLA base)。这部分开源内容对工程落地更具实际意义,降低了小团队的入门门槛。
事实上,春节前我们团队也在探索使用 VLA 操控机械手,试图将一些看似简单但细节繁多的操作真正跑通。瓶颈往往不在规划能力,而在更基础的两件事——识别必须足够准确、链路必须足够快速:看错一步,后续动作再聪明也只是在流畅地执行错误;慢半拍,就会变成一顿一顿的卡顿,连续操作根本无法稳定运行。幸运的是,近期不少团队将 VLA 的模型、代码甚至训练链路都开源出来了,我们这类小团队终于有机会将问题收敛为可落地的事:用开源底座搭建最小闭环,再用自身场景数据进行蒸馏或微调,训练出更小、更快、更贴近任务分布的模型,从而将准确性和时延一起提升到可交付的水平。
参考链接
对具身智能和开源技术感兴趣的开发者,可以访问云栈社区获取更多技术讨论和资源分享。
|