找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2410

积分

0

好友

318

主题
发表于 6 小时前 | 查看: 9| 回复: 0

传统的具身智能操作方法将视觉感知、语言理解和动作规划分割为独立模块,导致系统复杂、误差易累积且泛化能力不足。视觉语言动作模型(VLA)则实现了从多模态感知到动作生成的端到端学习,构建了“所见即所动”的智能决策闭环,极大地推动了具身智能发展。然而,VLA本身也存在诸多挑战,例如训练数据难以获取、模型结构缺少长时序和物理逻辑推理的能力。这意味着VLA虽然能实现一些操作功能,但对不同场景、不同任务的泛化性仍然不足,无法满足实际需求。

本文基于技术分享整理,探讨了VLA技术的基本原理、主流架构以及落地过程中涉及的数据、评测等关键问题。欢迎在云栈社区人工智能板块交流更多前沿AI与机器人技术。

我今天分享的主题是VLA(视觉-语言-动作模型)。我会围绕VLA开发过程中遇到的各种问题,介绍目前的现状与挑战,涵盖从数据到模型、再到最终部署及应用中遇到的困难。

具身智能中VLA的现状和挑战

首先看VLA的现状与挑战。具身智能在这两年非常火热,被认为是继智能驾驶之后的另一个爆发点。其背景是底层AI模型的快速发展,尤其是像VLM(视觉语言模型)这种离身智能大模型,已经具备了很好的通用性和泛化性。目前在聊天类应用、文生图以及VLM问答方面,技术已经做得非常成熟。下一步,技术必然会向具身智能演进,即让机器人的动作也具备这种通用能力。而且,具身智能的前景和市场容量远比智能驾驶要大。智能驾驶目前的普及率大约在60%到70%,而具身智能未来会存在于各种场景中。

机器人全链路开发基础设施架构图

从功能、底层模型、数据和硬件本体四个维度来看,目前具身智能的现状如下:在功能成熟度方面,我们将本体任务分为上肢操作(Manipulation)、下肢移动(Locomotion)和对话。目前对话功能已经非常成熟,许多陪玩类机器人已经落地。在移动能力方面,我们能看到很多机器人跳舞或进行搏击比赛,但目前大多属于“盲眼运动”,虽然有一定的情绪价值,但缺乏与现实的感知交互。比如机器人在跳舞时,如果前面有障碍物,由于没有通过传感器感知世界,它依然会撞上去。

至于上肢操作,这是我们今天要讲的重点,也是与VLA关系最密切的方向,目前它是最具挑战性、最不成熟的。其底层模型正经历从G1到G5的发展阶段,现在大约处于G2到G3之间,即从传统的工业自动化向端到端学习过渡的过程。虽然VLA正在从分层式架构向端到端架构发展,但挑战巨大,核心在于数据。现有数据无法支撑VLA发挥出应有的性能,而数据采集目前也没有完美的解决方案。遥操作采集的数据真实,但效率极慢;仿真虽然能快速获取数据,但有效率较低。此外,硬件本体目前也不够稳定成熟,尽管成本在快速降低,但端侧算力依然面临挑战。虽然现在到处都是问题,但VLA在发展过程中肯定会遇到各种坎坷。它应该是一个螺旋式或波段式前进的过程,而我们现在正处于第一个波峰。

机器人技术演进流程图:从G1到G5

我们来看看VLA到底是为了解决什么问题。因为我之前从事自动驾驶领域,而自动驾驶是AI第一个大规模落地的场景,所以我比较倾向于通过自动驾驶这十年的发展路径和AI落地过程,来推演具身智能当前所处的阶段。

自动驾驶领域的一个重要节点是“端到端”技术的出现。特斯拉率先发布了端到端算法,通过模仿学习来解决拟人化的问题。在此之前,自动驾驶主要依靠规则化方案来生成轨迹,涵盖行驶方向、速度和加速度等。驾驶最关键的三个要素是安全性、舒适性和高效性。在端到端技术普及前,传统规则化方法很难同时兼顾这三点。比如,为了保证安全而让系统过于保守,效率就会降低;如果驾驶风格激进以提高效率,安全性和舒适性又会受到影响。端到端技术较好地解决了这个问题,因为它直接从专家数据中学习驾驶过程,让体验提升了一大截。

自动驾驶技术演进路线图:模块化、BEV、端到端、VLA

不过,端到端技术也遇到了泛化性和适应性的难题,核心还是数据问题。比如不同城市、不同风格的红绿灯和标志牌,一旦系统没见过相关数据,性能就会立即下降。既然现在的VLM已经具备了极强的通用性、泛化性和常识能力——例如你问它某个交通标志是什么意思、该怎么开,它能给出很好的语言描述——那我们就在想,能不能把这种能力引入到具身智能系统中,形成VLA,让系统具备思考能力。目前在自动驾驶领域,已经有一两家头部玩家最近跑通了VLA。相比端到端模型,VLA的模型规模要大出10倍左右,端到端模型通常在0.1B(亿级参数)量级,而VLA则在几个B(十亿级参数)的量级,且训练数据量庞大,通常需要几十亿个短视频片段才能训练出一个性能较好的版本。

回到具身智能,即便是一个简单的动作,也存在技术方案的演进。第一种是模块化方案,类似于早期自动驾驶的思路,即“先检测再规划”。在2019年到2020年期间,很多Demo都是这么做的:先简单处理物体的姿态,再规划机械臂的操作。但问题在于,很多任务是无法直接规划的,尤其是自由度较高时。机械臂一般有6到7个自由度,人形机器人则有几十个,这不像自动驾驶只需在二维平面规划轨迹。

随后出现了模仿学习,即直接通过端到端的方式学习一条轨迹。它的好处是能完成一些规划不出来的复杂动作,并处理抓取柔性物体等任务。但它的局限性在于对数据的强依赖,于是便诞生了VLA。VLA的初衷是解决场景泛化、任务泛化和本体泛化这三个问题。我们希望利用VLM“见多识广”的能力,让机器人也具备同样的通用性。从落地角度看,场景和任务的泛化优先级最高,本体泛化可以排在最后,因为单款机器人如果能具备通用性,其价值就已经非常巨大了。

关于VLA的模型架构,其实逻辑非常直接。现在的模型输入通常是多模态信息,一般包含图像、文本和本体状态。其中本体状态主要指姿态信息和关节角度等。这些信息经过编码器处理后,输入到基于Transformer架构的VLM(视觉语言模型)中进行多模态融合。VLM输出的Token包含了图像、文本和本体的综合信息,随后进入动作策略(Action Policy)模块。

在动作策略模块中,目前主流的方法有两种。一种是扩散策略(Diffusion Policy),这在文生图等生成式模型中很常见。它通过生成式的方式来产生复杂的轨迹,相比之下,传统的判别式方法在描述轨迹的能力上不如扩散策略,因此扩散策略在动作生成中占据了非常重要的位置。另一种方法是流匹配(Flow Matching),同样属于生成式,它与扩散策略的主要区别在于底层的数学建模不同。扩散策略的分布建模更复杂,而流匹配则是在生成过程中进行线性迭代。经过动作策略模块的处理,最终会输出机器人的关节动作,也就是VLA中的“A”。

同时,也有很多研究工作会让模型输出一些辅助信息。比如有些模型会输出文本,这是借鉴了像DeepSeek等大语言模型的思路,旨在让机器人具备“思考”能力。也就是说,在训练模型时,不仅要让它给出答案,还要让它理解为什么是这个答案。这属于思维链(CoT)或动作链(CoA)的范畴。另外,也有研究会让模型输出图像信息,即利用当前的姿态、图像和文本去预测下一时刻的图像,这就是世界模型(World Model)。其基本原理是,如果模型能基于当前数据准确预测下一刻的状态,就认为它学习到了物理规律。目前已经有一些工作将世界模型与VLA结合在一起进行训练。

VLA模型结构示意图

在具体的架构实现上,目前主要有两种主流方案。一种是VLM直接输出特征(Feature)并传递给后续模块,这被称为“一段式”的端到端架构。另一种是分层式架构,VLM输出的不是特征,而是语言形式的任务规划。例如,当输入指令是“收纳桌子”时,VLM会先将任务拆解为具体的指令,比如“把杯子移到中央”、“把水倒掉”、“把垃圾丢掉”等,再将这些步骤逐一输出给下游模块执行。

VLA在多种实际场景中的应用演示图

我们来看一下目前的VLM(视觉语言模型)究竟能做哪些事情。VLM的设计初衷,一是解决任务的泛化性,二是处理复杂的长程任务。最近我去杭州参加了机器人国际会议的一个比赛,现场有六种任务,我重点观察了其中三种。第一种是叠衣服,这是典型的长程任务,要求机器人无论衣服如何摆放,都能将其折叠好;第二种是倒水;第三种是操作微波炉;第四种是收纳。此外,在近期的世界机器人大会(WRC)和世界人工智能大会上,我也看到了一些现场演示。比如打麻将,它采用的是分层架构,使用了一个经过麻将数据训练的12B规模的VLM。机器人会通过语音告诉你该怎么出牌,再利用传统方法检测麻将位置并完成推牌或抓牌动作,体验效果还不错。还有做香囊,这是一个更长程的任务,需要把东西装进去并勒紧绳子,这是由智元机器人完成的。目前市面上看到的这些炫酷动作,背后基本都是VLA在支撑,且大多基于OpenVLA等开源项目,这代表了目前能力的上限。

可以说,对于单一任务,如果我们提供大量数据,模型是具备长程执行、理解和复杂任务处理能力的。但它最大的问题在于泛化性极弱。我们设计VLA,是希望利用VLM在互联网上见过的海量数据,让机器人具备通用性和迁移能力。理想情况下,即使面对没见过的场景,模型也能凭借“常识”实现零样本(Zero-shot)能力。但实际测试下来,这种能力还不具备,原因主要有几点。

首先,VLM中的“视觉-语言”数据与“动作”数据分布不一致。VLM基座是通过互联网上大量的图文对训练的,而动作数据(A)必须靠真机实采。目前实采的数据量非常小,通常只有几百到几千条,与图文数据相比极其不均衡,导致VLM的知识无法有效迁移到动作上,模型处于严重的过拟合状态。其次是硬件限制。我们看到的很多流畅动作其实是经过5倍或10倍速处理的,实际操作时会有明显的抖动。受限于机械臂硬件本体,目前VLA还无法完成穿针引线这类精细化任务。

我们也做了一些泛化性验证,比如最简单的抓取和投放。实验发现,当背景发生变化(如移走测试环境中的黑色窗帘)、物体位置放远了一点,或者加入未训练过的干扰物(如一瓶咖啡),机器人就会失败。这说明目前的系统非常脆弱,原因就是数据量太少,多样性严重不足。

我们可以对比一下自动驾驶所需的数据量。自动驾驶可以看作是单一任务的具身智能,只负责“驾驶”。即便如此,要训练一个基本可用的模型,大约需要千万量级的视频片段,换算下来约为10万小时的数据,且这些数据必须分布在不同的空间和天气场景中。而目前具身智能领域,即便是一些领先的采集工厂,数据量也仅在百小时到千小时级别,还要应对无数种任务,这显然远远不够。

此外,自动驾驶的车辆是标准化的,动力学特性基本一致,数据容易复用且采集便利。但具身智能的硬件目前还没收敛,手部既有夹爪也有灵巧手,自由度从7个、11个到21个不等,导致数据无法复用,智能化进程缓慢。

VLA操作模型性能现状与限制因素分析图

经常有人问:现在的具身智能相当于自动驾驶的什么阶段?是2015年还是2012年?我认为,从算法模型来看,具身智能完全可以对标2025年的自动驾驶,两者都在往端到端或VLA方向走,没有代差。但从硬件角度看,具身智能可能还不如100年前的汽车工业,因为那时候汽车已经实现流水线大规模生产,而现在的机器人还远未达到那个水准。

VLA的主流架构

刚才我们讲到主流架构主要有两种:一种是分层式的,另一种是完全端到端的。这两者的核心区别在于VLM(视觉语言模型)向下一层传递的是语言规划指令,还是直接传递特征(feature)。

分层式架构在输入传感器数据后,会由两个系统协同工作。所谓“慢系统”,就是我们常说的VLM,它负责对数据进行推理。之所以称之为“慢”,是因为模型体量巨大,为了让它具备常识能力,必须经过海量数据训练,在现有的硬件条件下,其推理速度相对较慢。而“快系统”则是前面提到的端侧系统,它的模型较小,直接输出动作或轨迹,因此运行速度很快。我认为这种“快慢系统”的划分,本质上是受限于目前的硬件计算资源。如果未来端侧算力足够强大,其实就不需要这种区分了,所有环节都能实现实时响应。

在分层系统中,系统2负责思考并给出语言规划,再传达给快系统。比较典型的例子是Figure 01机器人展示的Demo,它采用的就是分层式架构。由于需要部署在Orin等芯片上,为了克服无法实时处理的问题,必须构建快慢系统。去年在自动驾驶领域比较火的理想汽车,也率先推出了类似的快慢系统,其初衷同样是解决端侧部署时的算力限制。不过从工程角度来看,快慢系统会更复杂一些,因为模块越多,工程量就越大。相比之下,完全端到端的架构就简单得多,传感器数据输入后,中间全部交给VLA处理并直接输出结果,没有了快慢之分。

这两种架构各有优劣。完全端到端的上限更高,但它对数据的需求量极其庞大。分层式架构目前的优势在于对数据的依赖程度没那么高。因为VLM可以通过少量的针对性训练达到较好的语言规划效果,开发者只需要专注于训练后面的动作执行模块,甚至可以沿用传统的控制模块。就像我之前提到的打麻将机器人,它的快系统其实就是用传统方法实现的。在目前数据保有量有限的情况下,分层式是一个比较合理的选择。此外,分层式也更契合现在的智能体(Agent)或MCP(多模型控制平台)架构,即由VLM充当“大脑”进行语言规划,再由快系统中的各种动作原子负责具体执行。

分层式架构与完全端到端架构对比图

这是我们最近在做的一些探索,主要集中在分层式架构上。之所以选择这个方向,是因为我觉得目前纯粹搞端到端方案其实已经遇到了瓶颈。在数据量不够的情况下,大家做出来的东西很难体现出差异化,落地也非常困难。因此,我们的思路是先把VLM(视觉语言模型)的能力利用起来,让它作为一个调度大脑,也就是Agent,去调用各种各样的“动作原子”。

分层式架构详解图:VLM任务规划与动作执行

比如,驾驶可以被视为其中一个动作原子,当机器人需要执行驾驶任务时,Agent就调用驾驶模块;收纳也是一个原子,它由许多“抓取与放置”(Pick and Place)动作组成。我们正在积累这些动作原子,当机器人面对复杂任务时,就由VLM Agent来进行任务分解和调度。这里面比较有挑战性的地方在于任务之间的衔接,即如何准确判断当前任务已经完成并开始下一个,以及当任务出错时,Agent该如何调整调度流程。

在开发动作原子时,我们走的是VA(视觉-动作)路线。我们发现现阶段语言在具体动作执行中起到的作用其实非常有限,直接通过VA实现反而更容易出效果。在方案设计上,我们选择了纯视觉方案,没有使用RGBD。这主要是从本质原理考虑的,我们认为视觉能力已经足够强,人类也是靠双眼来完成各种观测任务的。后期的验证也证明,纯视觉方案在鲁棒性和迁移性上确实比点云方案更好。

纯视觉VA方案构建动作原子库架构图

此外,我们在模型中增加了3D感知信息。目前的VLM其实并不具备很强的空间理解能力,如果你去测试它,它很难给出物体准确的方位、距离或复杂的几何尺寸,因为它的训练数据里缺乏这些信息。而这些3D信息对于动作的泛化性至关重要。如果能在一个统一的3D空间里进行动作规划,泛化性会强很多。因此,我们在架构中增加了一个3D编码器(Encoder)模块。

这里用到了今年CVPR的最佳论文VGGT,这是一个用于三维重建的视觉基础模型。我们知道,大模型正在改写各个研究领域,原先的导航规划现在变成了VLN(视觉语言导航),原先的操作规划和控制现在变成了VLA。VGGT则是三维重建领域的代表,它基于Transformer架构,效果已经接近传统的COLMAP等三维重建方法,潜力巨大。我们做的工作就是将VGGT预训练的3D相关特征提取出来,接入到VA模型中。经过验证,这种做法在鲁棒性和效果上都超出了我们的预期。

纯视觉VA方案VO-DP论文信息

其实模型本身并不复杂,在VLA的落地开发中,大部分工作量并不在模型架构上。通常情况下,模型部分的搭建两三周就能搞定,而真正耗费精力的是数据工作。对于具身智能而言,还涉及到机器人硬件适配、数据采集和实机测试,这部分工作量往往会占到总周期的三分之二甚至四分之三。

目前具身智能开发的第一步通常是在仿真环境中进行的。由于真实世界的有效数据非常稀缺,我们需要先在具有物理引擎的仿真器中采集数据,验证模型的有效性。以“夹木块”和“堆木块”为例,这类任务在人类看来很简单,但对机器人来说挑战巨大,稍微有一点偏差就会导致失败。我们将自己的方案与传统算法进行了对比:DP是基于2D图像输入的扩散策略算法,而DP3则是基于点云输入的版本。在真机测试中,我们的方案成功率明显更高,尤其在将木块放入盘子的任务中,表现几乎比DP翻了一倍。

Agentic-VLA系统架构与算法流程图

在测试VLA的过程中,我们发现“泛化性”是一个核心痛点。目前的VLA方案,比如OpenVLA,在光照发生变化时表现得很脆弱。例如环境光线由暗变亮,任务可能就会失败。但如果我们在VA模型中引入3D几何信息,系统就会表现出更好的鲁棒性,而现有的主流方案在处理这类场景时依然容易失误。

当我们通过VA实现了这些动作原子并建立起原子库后,就可以利用Agent这种大脑角色进行任务编排,从而完成长程的复杂任务。这种做法的优势在于能充分利用现有VLM的推理能力。目前VLM在任务规划上已经非常成熟,比如你让它规划收纳任务,或者给它一张路口的照片问它车辆该怎么开,它都能给出非常清晰的规划指令,甚至会提醒你注意避让前面的大卡车。现在的核心挑战在于,如何将这些高质量的语言规划准确地传递给VA模块去执行动作。

只要能把这一步打通,整个任务链就能串联起来。如右侧表格所示,这是一个完整的闭环流程:我们需要识别任务是否已完成。例如通过增加标志位来检测当前步骤的状态,如果任务完成,就调用下一个原子动作;如果没有完成,则返回重新执行。这种典型的类似MCP的架构,是目前完成复杂长程任务的有效路径。

Agentic-VLA执行多种机器人操作任务实验场景图

VLA的数据方案

接下来谈谈数据方案,这是目前具身智能行业最大的痛点。很多从自动驾驶领域转过来的同事会觉得,具身智能的数据基础设施还处于非常原始的阶段。目前行业内数据采集主要有两种方案:第一种是遥操作,这其中又包含很多细分技术;第二种是仿真。关于到底是以仿真为主还是以真实数据为主,业内一直存在路线之争。但在我们看来,真实数据是必不可少的,仿真数据如果做得好能起到很大作用,如果做得不好,可能只是锦上添花。

在遥操作方面,主要有几种技术路径。第一种是惯性动捕设备,通过让采集人员穿上带有IMU惯性传感器的服装,在运动时捕捉身体各关节的数据。这种方式的优点是没有视觉遮挡问题,即使两人拥抱也能采集到数据;缺点是惯性传感器存在漂移,时间久了精度会下降。目前特斯拉采集Optimus工厂数据时,使用的就是这种惯性动捕设备。第二种是光学动捕设备,需要在空间内安装多个摄像头,采集者穿戴贴满Marker点的服装。它的精度非常高,能达到亚毫米级,但缺点是容易受遮挡影响,如果摄像头没捕捉到某些点,后期就需要大量人工修补。

三种机器人遥操作数据采集场景图

还有一种常见的方式是外骨骼采集,即人带着同构或异构的机械臂进行操作。这种方式采集的数据几乎是1:1复刻,数据有效率很高,但采集效率相对较低。上述这些方式现在统称为“以人为中心”的数据采集,其最大的挑战在于人的关节结构与机器人并不一致,涉及到非常复杂的数据重定向(Retargeting)问题,有些人的动作不一定能直接迁移给机器人。最后是仿真数据,目前它主要用于大规模数据生产和自动化评测。当模型训练完成后,如果想要进行快速迭代测试,在仿真环境中进行是最高效的选择。

仿真环境的建设中,首先需要考虑的是资产库的规模。仿真器本身只负责物理仿真和渲染,而具体的场景——无论是工厂环境还是桌面环境,以及执行任务所需的各类物体,都需要丰富的资产支撑。这些资产的储备是目前具身智能开发中的关键卡点。其次,物理仿真的质量也至关重要。机器人与自动驾驶不同,自动驾驶的目标是避免碰撞和接触,而机器人执行任务时,时时刻刻都需要与物体发生物理交互。

仿真平台RoboTwin介绍与界面截图

目前,像MuJoCo或Isaac Gym等成熟的仿真器在物理仿真方面表现较好。具身智能对传感器的仿真模型支持要求极高,目前主流的仿真平台包括我们与高校合作开发的成果,比如与上海交通大学合作的RobotStudio,以及与清华大学合作的DICOVERSE。此外,业界还有像RoboVerse等面向具身智能的仿真框架。以DICOVERSE为例,它的主要特点是具备“实对虚(Real-to-Sim)”再到“虚对实(Sim-to-Real)”的功能,通过3D高斯泼溅(3DGS)技术完成环境重建后再进行渲染,从而获得极高的真实感,便于数据生成和模型测试。

DISCOVERE高保真多尺度仿真器介绍图

除了传统的数字孪生技术,我们最近还在尝试一种新的方案。业界常说的数字孪生追求的是对真实环境1:1的复刻,而我们提出了一个概念叫“数据表亲”。其核心逻辑是,在很多训练场景下,我们并不一定需要完全一致的1:1复刻,只要仿真环境中能出现类似的物体,就能达到训练效果。

目前,我们正针对桌面这类固定场景进行开发,通过输入一张图像或一段文字描述,利用生成式AI技术产生3D资产并构建出三维场景。更重要的是,这些生成的场景都具备物理仿真属性。正如我前面提到的,仿真器中数据资产的丰富程度决定了上限,而这种生成式的方法正是为了解决资产稀缺的问题。

TabletopGen生成式桌面资产重建方案流程图

这里举了一些具体的例子。左边是输入的原始图像,右边是生成的3D场景。可以看到,虽然两者并非完全一致,但物体基本上都实现了一一对应,这完全是通过大模型的方式生成的。在过去,如果我们要做这类物体重建,必须使用高精度激光扫描来生成Mesh,那种方式效率很低,且复杂物体的Mesh重建难度极大。现在得益于底层3D生成式大模型的发展,我们可以比较容易地生成这些高精度、高逼真度的3D模型。

TabletopGen生成的多种桌面场景示例图

VLA模型的量化部署

关于模型量化与部署,这是工程实践中非常关键的一环。在GPU上训练模型时,为了保证精度,通常使用Float 32或FP16等数据类型。但在推理阶段,这些类型的存储代价太高。举个简单例子,一个1B(十亿参数)的模型,如果量化为4比特或8比特,模型大小约为1GB左右;若使用Float 32,则需要4GB。这会极大影响端侧的运行效率。因此,目前在端上运行时,都需要将模型量化并迁移到ASIC(专用集成电路)上。目前主流的VLM量化方式通常是量化到4比特,且性能损失较小。通常芯片供应商会提供成熟的工具链来完成这种转换。在VLA中,量化的主要挑战在于扩散策略(Diffusion Policy)部分,因为它需要极高精度的姿态信息。在实际部署时,往往需要采用异构部署方案,根据任务特性将不同模块分配到AI加速器、CPU或DSP上运行。

模型量化部署流程架构图

部署流程本质上是一个数据映射的过程,即将浮点数类型映射到INT8或INT4上。这个过程需要使用部分数据进行模型校准,观察映射后是否存在精度大幅下降(掉点)的情况。这些都是工具链提供的标准化处理流程。如果量化后性能无法满足要求,就必须回头重新修改模型结构。

总结与展望

总结来看,我们介绍了从数据采集、模型设计、训练到最终部署的完整开发过程。目前的现状是,整个VLA领域仍处于非常早期的阶段。首先是缺少高质量的数据,且机器人本体目前极不标准;其次模型结构尚不成熟,直接将VLM映射到Action这种“头重脚轻”的形式,难以建立起稳固的连接;最后是硬件本体的局限,目前市面上的机器人硬件还不足以支持完成各种复杂任务。一个验证标准是:即使在有人类遥操作的情况下,很多任务都不一定能顺利完成。

展望未来,有两个重要的探索方向。模型层面,大家正在尝试引入触觉信息、强化学习等技术。因为动作轨迹的训练不能仅靠简单的回归损失函数来完成,强化学习可以通过稀疏奖励(比如只告诉模型结果的好坏)来训练模型。此外,世界模型(World Model)也处于预研阶段,重点在于3D空间表达、记忆信息和思维链,我们认为这是改造VLA最关键的点。

我认为VLA要实现量产,除了端侧模型本身,更多的精力应该放在构建数据闭环上。现在的具身智能其实很像Robotaxi。Robotaxi在行驶中不能有人干预,但遇到困难时需要云端接管,随着技术进步,接管次数会逐渐降低,智能化随之提高。机器人也是如此,如果工作时旁边必须有人,其商业模式就无法成立。因此,我们可以借鉴Robotaxi的路线:先通过人工遥操作让机器人进入实际场景工作,在这一过程中收集大量数据,随着自动化程度的提升逐渐减少遥操作频率,最终实现真正的自主化。




上一篇:明略科技吴明辉:软件快消品化与Vibe Coding下的工程师新角色
下一篇:隐钥Luna智能锁设计解析:极简美学下的多重安全技术创新
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-17 08:32 , Processed in 0.611259 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表