云栈社区»论坛 › 站务中心「 Forum Service 」 › 机器人基础模型的下半场：从自主到同盟（Science Robotics） ...

发回帖发新帖

3410 积分	0 好友	458 主题

发消息

机器人基础模型的下半场：从自主到同盟（Science Robotics）

发表于 3 小时前 | 查看: 1| 回复: 0

过去两年，机器人基础模型进展飞快。以 RT‑2、Gato、Octo 为代表的大规模预训练模型借助互联网级数据与迁移学习，在感知、决策、控制上展现出跨任务的泛化能力。于是，行业内逐渐形成一种主流判断：只要模型能在足够多的任务间迁移，通用型机器人智能就触手可及。

但这一判断有个明显的盲区：它默认机器人是一个独立、全能的智能体，只在极少时刻接收人类的高层指令，其余时间独自应对相对静态的环境。

现实完全不是这样。康复机器人需要与患者协同训练，半自动驾驶必须与驾驶员实时共享控制权，仓储协作机器人则需要与工友协调路径和作业节奏。机器人很少脱离人单独工作，更多时候处在一个高度耦合、持续变化的人机协作网络里。

正是基于这种观察，ETH Zurich 团队及其合作者在 Science Robotics 上发表了观点文章，明确提出：机器人基础模型需要完成一次从 autonomy（自主）向 alliance（同盟） 的范式升级。

论文标题截图：From autonomy to alliance: Robotic foundation models must learn with us, not just for us

论文链接：https://www.science.org/doi/10.1126/scirobotics.aea1822

研究团队给出了一个“生态学”视角：机器人不应只被定义为执行任务的工具，更应被训练为能在开放、多智能体、持续演化的环境中，与人类及其他机器人共同学习、共同适应的协作伙伴。

为实现这一目标，他们梳理出 6 项关键能力建设，包括交互先验、伙伴建模、策略模块化、规范适应、信任感知记忆与通信机制。借助这些能力，机器人能在不同社会角色之间顺畅切换，快速适应陌生协作者，并在家庭、工厂、诊所及现场作业等复杂场景中实现稳定、高效的协同。

为什么需要同盟能力？

人类之所以能和陌生人迅速建立协作，依赖的是在长期社会互动中形成的“社会常识”：我们知道何时让路、何时发声、何时接手主导角色，也能根据对方反馈即时调整自己的行为。

但当前的机器人模型普遍缺乏这类能力。要补上这一短板，仅靠任务训练远远不够，还需要交互学习、伙伴建模、角色灵活切换等一整套算法与系统架构支撑。

更重要的是，评价体系也需要同步升级。论文指出，机器人不应只依据“能否独立完成任务”来衡量，还应考察它在人机协作、机机协作团队中的适应能力与鲁棒性。这意味着评估重心正在从单一的工程性能指标，转向面向真实协作场景的社会化能力指标。

6 项关键能力怎么建？

这 6 项能力并非彼此孤立，而是相互支撑，共同决定机器人能否在协作中持续学习、快速适应，并在不同任务、不同伙伴、不同社会情境下重新组织已有知识。

机器人交互与决策机制的六部分结构图：从交互先验到规范适应

1. 交互先验

人类在协作时会天然带入长期积累的社会经验，即使面对陌生人也往往能迅速形成基本配合。机器人若想达到类似水平，必须先具备交互先验。

这类能力可以通过大规模多智能体数据或仿真环境获得。例如，在真实或合成的多智能体轨迹上训练基础模型，让它隐式掌握常见协作模式：当某个角色靠近拾取物体时，其他成员通常会主动让出空间。一旦模型内化了这类先验，面对陌生伙伴时就能更快预测对方行为并及时响应。

2. 伙伴建模

机器人能否跨伙伴迁移，关键在于它能否理解“对方正在做什么、准备做什么、相信什么”。在认知科学中，这种能力被称为“心智理论”。

研究团队介绍了一种心智理论式思路：将伙伴目标视作隐变量，通过一小段行为观察窗口输出一个 embedding 向量。该向量既能预测伙伴下一步行为，也能帮助机器人调整自身策略。当这种推理模块嵌入经过大规模多智能体轨迹预训练的 Transformer 后，模型会自发识别出频繁变向、频繁切换注视目标等信号，并将它们压缩为“探索型或稳健型”“强势型或温和型”等具有社会意义的表征。

另一个相关方向是 ad hoc teamwork，即要求智能体与从未共同训练过的队友立即协作。近期的 N‑Agent Ad hoc Teamwork 基准引入动态组队机制，任务过程中队友可能被替换或新增。结果表明，能实时推断队友 embedding 的策略，恢复团队表现的速度明显更快。

在人机交互场景中，还需要更进一步：机器人必须持续建模人类如何看待自己，才能判断何时该主动解释、何时该澄清误解，从而提升信任感与任务效率。

3. 策略模块化与组合性

实现灵活协作的一条重要路径，是把机器人策略拆解为可复用模块，再按场景动态组合。

例如，一个模块负责任务技能（如插销入孔），另一个负责交互技能（如跟随伙伴节奏）。这样，面对新任务或新团队时，只需替换相关模块，无需重新训练整个网络。Devin 等人的早期工作已验证这种思路：他们将神经策略拆分为任务特定模块与机器人特定模块，通过混合组合即可适配从未见过的机器人‑任务搭配。该框架还可进一步扩展到角色层面，分别训练 leader 与 follower 模块，再根据团队分工实时切换。

4. 规范适应

仅理解动作层面的协作远远不够。真正具备同盟能力的系统，还必须理解所处环境中的社会规范。

每个组织、团队或文化环境都存在大量默认规则，从办公场所礼仪到公共空间行为边界，这些规则往往不会白纸黑字写出来，却决定着互动是否顺畅。例如，一个服务机器人进入图书馆后仍以正常音量讲话，很可能立刻失去用户接受度。

研究团队以 Social Norm Adaptive Robots 架构为例，说明如何将符号推理与机器学习结合，使机器人识别、遵守并逐步学习不同社会环境中的规范。难点在于，规范高度依赖语境，会随群体变化甚至相互冲突。机器人可能刚适应医院病房的规则，下一刻又进入私人家庭环境，因此它必须具备低成本泛化能力，而不是每换一次场景就重新训练。

5. 信任感知记忆

高效合作离不开信任。人类会在长期互动中记住谁可靠、谁擅长什么、过去合作是否顺利；机器人同样需要类似机制。

这意味着系统需要具备长时记忆与持续学习能力，在反复协作中逐步形成对不同伙伴的认知——包括能力水平、偏好风格与可靠程度——并据此优化未来决策。研究团队引用了 artificial trust metric 的案例：在康复机器人场景中，当系统判断患者需要帮助时，会主动增强辅助力度并提供引导；当判断患者具备更高自主能力，或希望获得更多控制权时，则主动退后，让患者自行完成动作。这种信任感知记忆能够记录交互成败、错误模式与反馈信息，并持续更新面向特定伙伴的信任模型，最终影响任务分配、角色安排与协作方式。

6. 作为迁移通道的通信

通信是实时协作的核心机制。当机器人说出“我负责 A 区域，你负责 B 区域”时，传递的是最小但关键的意图信息，使团队成员无需依赖高成本试探即可完成协调。

围绕合作式 AI，当前研究重点集中在三个问题：传递什么信息、何时传递、如何理解对方信号。研究团队提出了两条互补路线：

将自然语言作为共享中介语。只要新成员理解这套语言体系，就能迅速加入团队。大语言模型正成为重要接口，负责把自由表达解析为结构化意图，再生成简洁、可执行的反馈。
让智能体自主演化专属通信协议。这类协议效率可能更高，但难点在于新加入成员能否快速理解。

与此同时，通信还必须具备透明性与可解释性。机器人不仅要表达决策结果，也要说明理由——包括为什么/为什么不的解释，以及经过校准的不确定性信息。这样，伙伴才能及时修正判断、从协作失误中恢复，并动态调整信任水平。具体实现方式包括提升动作本身的可读性、根据感知与执行轨迹自动生成语言摘要，以及保存“决策与理由”记录以支持后续追溯与查询。

评测体系怎么跟上？

范式一旦转变，评测体系也必须同步变化。过去的机器人学习基准大多围绕“固定角色下能否完成任务”展开；但如果要衡量机器人在真实社会环境中的泛化能力，这套标准显然不够。

研究团队提出了 4 类关键评测方向：

交互泛化测试
过去我们关注机器人能否适应新环境、新物体，未来还要关注它能否适应新的合作对象。比如，让协作机械臂先与某位人类伙伴共同训练，再与另一位陌生伙伴执行同一任务。这时考察的不仅是任务完成率，还包括协作效率、达成共识所需时间以及沟通误解发生的次数。像 ZSC‑Eval 这类工具已经能够生成多样化的伙伴行为，用于系统评估智能体面对陌生协作者时的适应能力。

角色切换压力测试
真实协作中分工并非一成不变，角色随时可能调整。因此评测需要模拟任务进行中的职责切换。例如在送货任务里，机器人 A 原本负责决策，机器人 B 负责执行；如果 A 的核心工具突然故障，B 能否迅速接管指挥？关键指标包括接手速度、交接是否顺畅，以及团队效率是否明显下降。这类测试能直接检验策略模块能否在运行过程中完成重组。

社会鲁棒性与规范适应
安全领域强调系统在异常输入下的鲁棒性，社会协作场景同样需要。比如人类队友突然下达与此前指令相冲突的命令，机器人是机械执行，还是主动暂停并进行核对？另一种测试方式是让机器人在两套不同社交规则的虚拟文化环境中执行同一任务，观察它能否根据情境调整行为。这类能力决定了机器人能否真正进入复杂、多元的人类社会。

人类满意度与团队绩效
协作关系最终是否成立，核心标准仍然是人类是否愿意接受，以及团队整体表现是否提升。因此评测体系应纳入 human‑in‑the‑loop 实验，让真实用户评价机器人的协作品质，例如“它是否让工作更轻松”“它是否理解并适应你的偏好”，同时结合任务成功率、完成耗时和错误数量等客观指标。研究团队进一步建议引入综合性的“同盟分数”，将信任程度、沟通效率与协作流畅度统一纳入评价体系。

还需要做什么？

当然，这个想法也并非完美。研究团队坦承，文章聚焦在同盟感知机器人基础模型的计算与学习维度，这些技术进展虽然必要，但并不充分。要让人‑机同盟真正落地，还需要多个并行领域同步推进：

机器人硬件持续创新：更安全、低功耗的驱动器和耐用、响应迅速的传感器，直接决定机器人能否安全可靠地与人共处；
高保真感知：具备密集、大面积触觉感知的机械手，是实现递物、力控等细粒度交互的前提；
具身认知视角：机器人的物理形态和感知‑运动能力从根本上塑造它能学什么、能如何协作，这一因素必须与算法改进同步前进；
HRI 设计、安全与伦理框架：更直观的沟通界面、社会化反馈机制，以及确保机器人行为与人类价值和安全标准对齐的伦理约束。

此外，规范问题本身也远未解决：规范高度依赖语境、随社群变化、甚至互相冲突。如何让机器人在不经过大规模重新训练的前提下适应全新的规范情境，仍是一个尚待解决的难题。

从自主走向同盟，本质上是在重新定义机器人“学习”与“泛化”的含义。未来的机器人基础模型不再只是精炼技能，而是能在动态的人‑机生态中持续适应。当机器人真的能走进新的环境、立即开始与周围的人和机器共同学习，它们就从“工具”变成了“伙伴”。

上一篇：Cadence与NVIDIA深化合作：代理式AI与数字孪生重塑芯片设计格局
下一篇：GBase 8a MPP Cluster特性辨析：列存、分布式分析型还是其他？

机器人基础模型, 人机协作, 伙伴建模, 多智能体, Science Robotics