云栈社区»论坛 › 技术文档「 Note & Doc 」 › 嵌入式思维链推理ECoT：提升VLA机器人策略的泛化与可解释性 ...

发回帖发新帖

3963 积分	0 好友	525 主题

发消息

嵌入式思维链推理ECoT：提升VLA机器人策略的泛化与可解释性

发表于 2026-3-21 05:33:43 | 查看: 181| 回复: 0

近期，由 UC Berkeley、University of Warsaw 和 Stanford University 的研究人员联合提出了一种名为 Embodied Chain-of-Thought Reasoning (ECoT) 的新方法，旨在提升视觉-语言-动作模型在机器人控制任务中的性能。

论文标题《Robotic Control via Embodied Chain-of-Thought Reasoning》

论文标题：《Robotic Control via Embodied Chain-of-Thought Reasoning》
论文链接：https://arxiv.org/pdf/2407.08693
项目主页：https://embodied-cot.github.io/
代码仓库：https://github.com/MichalZawalski/embodied-CoT/

研究动机

尽管端到端的机器人控制方案（如 Mobile ALOHA）取得了进展，但在面对新颖场景或陌生物体时，机器人仍需要强大的泛化能力。人类在执行复杂任务时，往往会先进行“思考”——例如，当被要求将水果和蔬菜分放到不同盘子时，会先识别物体类别，而非直接执行肌肉记忆中的动作。

我们希望机器人策略不仅能够执行端到端的控制，还能在将指令转化为动作之前，对当前情况进行推理。这种推理可能包括识别和定位任务相关目标、生成任务执行计划，以及将子任务和观察结果转化为具体的动作序列。

当前大多数 VLA 模型直接学习从“观测+指令”到“动作”的映射，并未整合思维链推理。然而，思维链技术在大语言模型和视觉语言模型中已成为提升复杂问题解决能力的标配。

一个很自然的问题是：能否将大模型的思维链推理能力迁移到具身智能的 VLA 模型中，以处理更复杂的机器人任务？

初步尝试表明，简单地在标准 VLA 中使用“逐步思考”风格的提示效果有限，仅能处理简单场景。更重要的是，对于需要在图像观测和机器人状态中进行推理的策略而言，常规思维链所共有的、关于子任务的纯语义推理是不充分的。

研究者假设，通过训练 VLA 模型对其计划、环境状态和运动进行文本推理，可以提高其性能，从而生成更准确、更鲁棒的机器人动作。然而，将思维链技术从语言建模简单移植到机器人领域面临挑战：

当前 VLA 基于相对较小的开源 VLM，其执行有意义推理的能力无法与大型闭源模型相提并论。
语言模型中最常见的思维链推理（将任务分解为子任务）虽然有用，但不足以应对机器人任务。VLA 策略需要在环境和机器人状态的观测中进行规划与推理，迫使智能体关注细粒度的空间或语义感知特征。

解决方案：引入 具身思维链推理。该方法训练 VLA 策略在执行动作之前，自回归地生成包含高层次和低层次推理的思维链。

传统VLA策略与ECoT策略对比

ECoT 策略在预测下一个机器人动作之前执行多步文本推理，内容涵盖计划、子任务、运动以及视觉特征（如目标边界框和末端执行器位置）。这迫使策略在行动前“仔细思考”并“仔细观察”。

研究者设计了一个可扩展的流程，用于在大型机器人数据集上生成 ECoT 所需的合成训练数据，利用强大的预训练开放词汇目标检测器和大型语言模型来生成推理监督。

实验表明，通过训练最先进的 VLA 在动作预测前执行多步推理，可以显著提升其在具有挑战性的泛化任务上的能力。在不增加额外机器人训练数据的情况下，ECoT 将 OpenVLA 的绝对成功率提高了 28%。此外，ECoT 使策略失误更具可解释性，允许人类通过自然语言反馈修改错误的推理链来轻松纠正策略行为。

方法基础：OpenVLA

本方法以 OpenVLA 作为基线模型。该模型基于 Prismatic VLM，其视觉编码器融合了预训练的 SigLIP 和 DinoV2 特征，语言骨干则采用 Llama2-7B。在训练过程中，使用预训练的视觉编码器将输入图像编码为视觉 Token，使用 Llama 2 的分词器处理任务指令，并训练模型将这些输入映射为目标动作 Token。

OpenVLA模型架构图

下文将探讨如何改进传统的 VLA 训练方法，使 VLA 能够在决定采取何种行动之前，对当前任务进行推理。

具身思维链推理详解

本节阐述如何训练 VLA 模型执行具身思维链推理，涵盖计划、子任务、运动及视觉特征，然后再预测机器人动作。

与许多专有大型语言模型不同，当前 VLA 所使用的小型 LLM 骨干仅通过“逐步思考”提示难以进行复杂推理。因此，研究者提出显式训练 VLA 模型执行具身 CoT 推理。具体而言，他们对已有机器人数据集进行事后标注，在其中加入包含多种预训练模型提取特征的推理链，并用这些“观察–推理–动作”三元组数据进行训练。

为确保可行性，所有生成的推理数据元素均以字符串表示，从而能够使用 Llama 2 的文本分词器将其转换为推理 Token。随后，训练 VLA 模型自回归地预测这些推理 Token，紧接着预测动作 Token。

该方法需要解决两个关键问题：

哪些推理步骤最适合指导策略完成具身机器人操作任务？
如何在现有机器人数据集上大规模生成这些推理步骤的训练数据？

此外，训练完成后，ECoT 策略在实际控制中还面临推理速度的挑战：为每个动作生成详细推理会显著降低策略频率。后文将讨论解决方案。

ECoT 推理步骤设计

设计具身思维链的目标有二：
(A) 鼓励模型推理完成任务所需的高级步骤，并确定当前应执行的步骤；
(B) 在预测动作前，将推理建立在场景和机器人状态的底层特征之上。

ECoT推理步骤示意图

如图3所示，训练模型按顺序执行以下推理步骤：

任务重述：重新表述任务指令。
计划生成：预测实现任务的高级步骤序列。
子任务推理：基于当前场景和机器人状态，推理当前应执行哪个子任务。
动作原语预测：预测一个如“向左移动”的低级语言命令。
具身特征预测：预测机器人末端执行器的像素位置，以及场景中所有物体的名称和边界框像素坐标。

这些步骤迫使模型在行动前密切关注输入图像的所有元素。

大规模生成 ECoT 数据

人工标注大规模机器人数据集不现实。因此，研究者利用现有大模型自动生成推理链，大幅减少人工工作量。

ECoT合成数据生成流程

对于每一对 图像-指令，数据生成流程如下：

场景描述：使用 Prismatic-7B VLM 生成该场景的详细描述。
目标检测：将原始指令和场景描述拼接，输入 Grounding DINO（开放词汇目标检测模型），检测所有相关目标实例及其边界框。保留边框置信度 > 0.3 且文本置信度 > 0.2 的结果，作为 OBJECT 特征。
动作原语生成：参考 RT-H 方法，利用机器人末端执行器位姿确定接下来4个时间步的移动方向，并将其转换为 729 个模板化动作原语之一（如“向左移动”、“向上移动”），作为 MOVE 特征。
末端位置计算：使用 OWLv2 和 SAM 检测图像中末端执行器的 2D 位置，结合机器人状态的 3D 位置，通过 RANSAC 拟合投影矩阵，得到 GRIPPER 位置。
推理链合成：将任务指令、场景描述和逐步动作原语输入 Gemini 1.0，提示其生成符合指令和动作的高层子任务计划、每一步的当前子任务，并对动作和子任务选择进行简要解释，形成完整的 ECoT 数据。

该流程在包含超过 250 万条状态转移的 Bridge v2 数据集上运行，总耗时约7天。这种利用大模型进行数据标注的思路，与社区中利用人工智能工具处理海量数据的实践不谋而合。

高效的 ECoT 推理

ECoT 策略面临推理速度挑战。每个时间步需要预测的 Token 数量从 OpenVLA 的 7 个激增至 ECoT 的约 350 个。研究者探索了一种简单加速方案：在多个时间步内保持推理链的特定部分固定。由于对已有 Token 进行编码比重新生成快得多。

他们比较了两种策略：

同步执行：每隔 N 步（实验中为5步）才重新预测一次高层推理。
异步执行：一个 ECoT 策略实例持续更新高层推理链，另一个策略则利用最新推理链来预测底层步骤和动作。

实验验证

实验旨在回答三个核心问题：

具身思维链推理是否能提升 VLA 策略性能？
具身思维链是否使策略失败更易解释和纠正？
如何优化带具身思维链策略的运行时效率？

实验设置

机器人平台：采用 Bridge V2 论文中的 6 自由度 WidowX 机械臂，使用单一第三人称摄像头和自然语言指令，策略预测末端执行器的速度控制动作。

WidowX 250机械臂实验平台

训练数据：在 Bridge V2 数据集（6万条示教）上应用前述流程，合成生成 ECoT 数据用于训练。
评估任务：设计了一系列测试泛化能力的任务，包括处理空间关系、与未见物体交互、执行未见过的自然语言指令。
对比方法：
- OpenVLA (Bridge)：基线模型，无思维链训练。
- RT-2-X：550亿参数的闭源 VLA 策略，使用更多训练数据。
- Octo：基于 Open X-Embodiment 数据集训练，非 VLA 微调方法。
- Naïve CoT：本方法的变体，仅使用非具身（纯语言）思维链推理，用于验证具身推理的重要性。

ECoT 显著提升策略泛化能力

各模型在不同任务上的成功率对比表

表1结果显示：

OpenVLA 在分布内任务上表现良好，但在困难泛化场景下表现不佳。
RT-2-X 表现优于普通 OpenVLA，这可能得益于其更大的预训练数据集和模型规模。
ECoT 策略在几乎所有泛化任务上都大幅优于使用相同数据和基础模型的 OpenVLA，唯一区别是引入了 ECoT 推理。
有趣的是，ECoT 甚至在多数测试任务上超过了规模大7倍、使用额外10个数据集的 RT-2-X。
Naïve CoT 性能远差于 ECoT，这证明了在推理中整合视觉输入和底层机器人状态等具身信息的必要性。

ECoT策略成功与失败的定性案例

图5的定性案例显示，模型不仅能成功分解任务，还能将子任务锚定到场景中——通过预测相关物体边界框和夹爪位置，再决定动作。

通过检查推理链诊断策略失败

ECoT 提供了理解策略决策过程的新窗口。通过检查推理步骤，可以发现导致后续失败的错误。例如，图5（右图）显示，策略在执行“捡起螺丝刀”任务时失败，原因是其推理链错误地将锤子识别为螺丝刀。

需要注意的是，检查推理链并非万无一失的解释方法，模型可能预测出某个计划，但在最终选择动作时偏离该计划。但实践表明，CoT 通常与实际执行的动作有强相关性。

通过自然语言反馈实现交互式策略修正

让策略用自然语言逐步推理，为人类提供了一种通过修改其推理链来纠正行为的强大机制。相比于需要复杂远程操控设备的 DAgger 方法，现在只需提供自然语言反馈。

研究者测试了 ECoT 策略能否仅凭语言反馈进行纠正。在最具挑战性的任务上，无干预时策略平均成功率仅32%。

人类通过自然语言干预修正ECoT推理链

干预流程（图6）：

人类操作者在执行过程中打断一次，提供自然语言反馈。
使用 ChatGPT 根据反馈调整模型的原始推理链，生成修正后的推理链（提示词见图12）。
将修正后的推理链重新输入策略，并在后续步骤中保持固定。

用于ChatGPT人类干预实验的提示词

结果显示，ECoT 策略能有效利用人类语言干预，在最具挑战性的任务上成功率提升了48%。 相比之下，以同样方式评估原始 OpenVLA 和 RT-2-X，它们均无法从干预中同等获益。

高效的 CoT 推理优化

ECoT推理加速方法性能与加速比

表2对比了两种加速方法与“每一步都完整推理”的朴素方法。两种方法都能提升推理速度，同时保持或超过性能。异步执行获得最大加速，但计算量翻倍。在主要结果中，研究者选择了 5-step freeze 方法，因其在性能与速度间取得了最佳权衡。

模型设计与训练策略分析

冻结检测框以提升速度与可解释性
研究者改进了推理链结构：将边界框生成步骤提前。由于生成检测框占用了大量预测 Token，这一改变使推理速度加快了30–50%。同时，训练模型在预测当前夹爪位置时，自回归地预测未来4步的位置，为操作员提供未来运动趋势的可视化。

表3显示，虽然这种 冻结检测框策略 性能略低于基础 ECoT，但仍优于所有基线模型，且因其更快的速度和可视化能力被用于后续实验。

不同训练策略的ECoT模型成功率对比

联合视觉-语言数据训练
在 VLA 微调时，模型通常会丧失底层 VLM 的对话能力。研究者测试了用机器人数据与基础 Prismatic VLM 的视觉-语言数据以3:1比例进行联合训练的 ECoT 模型。虽然定性上该模型保持了聊天能力，但表3显示，在机器人控制任务上联合训练并未带来显著性能提升，不过在涉及名人识别等特定任务上表现更好。

跨机器人形态的迁移能力
研究者测试了在已预训练于27个数据集的 OpenVLA-7B 上，用 ECoT 数据微调 BridgeData V2 部分（约占13%数据）。关键发现：

微调效率极高：仅需20k步训练，性能即接近原始从头训练80k步的 ECoT 模型，计算量减少4倍。
出色的跨形态迁移：微调后的模型能够在从未训练过的机器人形态上执行 ECoT 推理（图7）。模型可以识别新机器人的抓手、物体及位置，并预测未来运动，尽管机器人外观、场景布局和相机设置差异巨大。

ECoT模型在非WidowX机器人上的推理示例

总结与展望

本文提出的 Embodied Chain-of-Thought Reasoning 方法，通过在动作预测前引入结合场景与状态的多步推理，显著提升了 VLA 策略在复杂泛化任务上的性能、可解释性和人机交互纠错能力。

与简单套用语言模型 CoT 不同，实验强调了推理步骤必须与场景和机器人状态紧密结合。这一工作为如何将大语言模型的先进推理能力更有效地赋能于具身智能体提供了重要思路。当然，这项工作也存在局限。例如，模型未根据任务动态调整推理链结构，总是按固定顺序执行所有步骤。未来可探索让模型自动选择最优推理步骤。此外，执行速度仍是限制因素，尽管本文提出了运行时优化，但探索其他提升 LLM 吞吐量的方法，可能使 CoT 推理应用于更高频率的控制任务。将 ECoT 训练扩展到更广泛的机器人数据集，有望进一步提高其跨平台的迁移能力。对智能 & 数据 & 云领域的研究者而言，这种利用合成数据和模型推理提升系统智能水平的方法，具有广泛的借鉴意义。

技术的发展离不开社区的交流与碰撞，欢迎在云栈社区分享你对具身智能和机器人学习的前沿见解。

上一篇：工程化复现DeepResearch：剖析循环推理、评估与核心实现机制
下一篇：ThinkAct VLA模型：基于MLLM双系统架构，实现机器人长程规划与自主纠正

ECoT, VLA, 机器人控制, 具身智能, 泛化能力