在 Physical Intelligence 最新发布的 π0.6 论文中,研究团队阐述了其迭代式强化学习的思路来源。除了我们熟知的 Yuke Zhu 以及团队自身(Chelsea Finn、Sergey Levine)的研究外,来自国内具身智能团队的工作也被重点引用,例如清华大学与星动纪元的相关研究。随着 π0.6 的发布,“VLA+在线RL”已成为行业公认极具前景的研究方向,同时,大语言模型从监督微调(SFT)走向强化学习(RL)的发展路径,在具身智能领域也愈发清晰。
为何VLA+RL至关重要
在具身智能领域,研究人员正致力于将强大的视觉-语言模型应用到机器人底层控制中,这便是VLA(Vision-Language-Action)模型。这类模型通常依赖于人类专家的示范数据进行监督微调来学习特定技能。
然而,纯粹的模仿学习存在局限性。当机器人遇到未曾见过的新场景,或专家示范数据本身存在瑕疵时,机器人往往难以应对。模仿学习虽能让机器人完成动作,但要确保其每次都能稳定、鲁棒地工作却异常困难。若希望机器人能够持续、可靠地执行任务,强化学习的力量不可或缺。与受限于演示数据质量的离线强化学习不同,在线RL允许智能体通过自主试错来发现更优的解决方案,从而超越原始专家的水平。
VLA应用强化学习的三大核心挑战
理论上,强化学习能让机器人在与环境的交互中不断自我提升,但在实践中却面临严峻挑战。将类似GPT的大模型与强化学习结合(如RLHF)在对话领域取得了巨大成功,但在控制物理机器人时却困难重重,主要难点集中在三个方面:
- 环境差异巨大:对话模型的训练基于静态离线数据集,而机器人需要在动态、复杂的物理世界中进行实时探索。物理任务的周期通常较长,且奖励信号稀疏(往往需要完成一系列动作才可获得奖励),这导致学习效率低下。
- 模型不稳定与坍塌:研究发现,若直接对参数量庞大的VLA模型(数十亿级别)进行在线强化学习,模型极易发生“灾难性遗忘”或训练崩溃,最终性能甚至可能倒退至不如微调前的状态。
- 高昂的算力负担:在本地机器人控制器上对数十亿参数模型进行全梯度强化学习更新,对硬件算力要求极高,通常远超本地设备的承载能力。
iRe-VLA:率先突破困境,获π*0.6引用的中国方案
针对VLA的强化学习困境,行业探索主要分为三种路径:
- 外挂式干预:如V-GPS、DSRL等方法,避免直接更新VLA核心参数,而是通过外部价值函数或引导机制来优化输出。这种方法安全但VLA模型本身并未得到根本性进化。
- 暴力全量微调:以VLAC为代表,尝试直接用PPO等算法全量微调VLA。此举虽大胆,但极易引发模型不稳定与坍塌,且算力消耗巨大。
- 探索-内化的迭代循环:以清华大学与UC Berkeley联合发表的《Improving Vision-Language-Action Model with Online Reinforcement Learning》(即iRe-VLA)为代表。这项由清华大学助理教授、星动纪元创始人陈建宇团队主导的研究,是全球最早将在线RL成功引入VLA的工作之一,其核心思想是利用SFT将RL探索出的高价值行为稳定地内化为模型的原生能力。该工作已在ICRA发表,并成为π*0.6论文的引用来源。
iRe-VLA模型架构与两阶段循环流程
iRe-VLA的模型架构采用了“分而治之”的设计:
- VLM主干(冻结的“大脑”):使用预训练的大型视觉-语言模型(如BLIP-2),负责理解图像与指令,提供丰富的先验知识,其参数在大部分阶段被冻结。
- 动作头(可训练的“四肢”):一个轻量级的动作输出层(包含Token Learner和MLP),负责将VLM的特征转化为具体的机器人控制指令。为提高效率,作者采用了LoRA(低秩适应)技术对模型进行适配。
其核心创新在于一个两阶段交替迭代的学习流程:
第一阶段:在线强化学习(探索与发现)
在此阶段,目标是让机器人安全、高效地探索新任务。
- 冻结大脑,仅练四肢:冻结庞大的VLM主干参数,仅训练轻量级的动作头,并引入一个评价网络辅助训练。
- 优势:由于更新参数极少,训练异常稳定,计算开销小,可在单张消费级显卡(如RTX 4090)上本地运行。机器人通过试错,积累成功的交互轨迹。
第二阶段:监督学习(巩固与内化)
此阶段旨在将第一阶段探索到的“偶然成功”固化为模型的“本能”。
- 全模型微调:解冻VLM主干,对整个模型(包括LoRA参数)进行微调。
- 混合数据训练:训练数据混合了第一阶段收集的成功轨迹与原始的专家示范数据。
- 优势:既利用了大模型的强大表征能力来学习新技能,又因混合了旧数据而有效防止了灾难性遗忘。此阶段计算量大,通常在云端算力集群(如A100)上执行。
总结而言,机器人先在“小参数模式”(阶段一)下大胆探索,找到方法后,再在“全参数模式”(阶段二)下将经验固化到“大脑”中,如此循环往复,实现持续学习。
实验结果与分析
研究团队在仿真环境(MetaWorld, Franka Kitchen)和真实世界(Panda机械臂)中进行了全面验证。
训练稳定性:实验显示,使用标准PPO算法直接微调VLA模型会导致成功率剧烈震荡甚至下降,而iRe-VLA的“分阶段冻结参数”策略确保了训练曲线的平稳上升。
仿真环境表现:在MetaWorld和Franka Kitchen基准测试中,iRe-VLA不仅在已学任务上表现大幅提升(例如从43%提升至83%),还能通过在线探索学会完全陌生的新任务。相较于纯SFT模型,iRe-VLA在所有任务类别上均展现出显著优势。
真实世界挑战:在抓取未见过物体(如茄子、胡萝卜)的任务中,结果令人印象深刻:
- 初始SFT模型抓取成功率约35%。
- 经过iRe-VLA在线学习(采用SACfD算法提高样本效率)后,成功率飙升至80%。
- 模型展现出优秀的泛化能力:在面对未参与训练的第三类物体时,抓取成功率也从37%提升至61%。
消融实验:对比实验证明,如果在第二阶段不解冻VLM主干(即iRe-VLA-freeze),模型性能提升将遭遇瓶颈。这验证了第二阶段解冻大模型参数的必要性,唯有如此才能充分利用其深层表征能力来掌握复杂技能并提升泛化性。
结论与展望
iRe-VLA提出了一套切实可行的方案,有效解决了大模型在机器人控制中落地难的核心痛点:
- 稳定性:通过分阶段参数更新策略,解决了大模型直接上RL易崩溃的问题。
- 经济性:巧妙分配算力,本地进行轻量级探索,云端进行重量级消化,符合实际部署需求。
- 持续学习:证明了机器人能够通过自我探索,在不遗忘旧技能的前提下,持续掌握对新物体、新任务的操作能力。
从星动纪元的iRe-VLA到海外的PI π*0.6,这些工作共同揭示了VLA在线强化学习技术的巨大潜力。未来,如何在稀疏奖励下进行高效探索、如何构建面向超大规模VLA的稳定可扩展强化学习算法等,仍是值得深入研究的课题。