云栈社区»论坛 › 站务中心「 Forum Service 」 › Science Robotics：浙大团队提出“感觉-运动”策略，无人机凭视 ...

发回帖发新帖

4111 积分	0 好友	535 主题

发消息

Science Robotics：浙大团队提出“感觉-运动”策略，无人机凭视觉本能穿过5厘米窄缝

发表于 2026-6-18 00:36:50 | 查看: 127| 回复: 0

自然语言处理计算机视觉发现你感兴趣的论文

无需里程计、无需轨迹规划，仅凭一台单目相机和一个端到端神经网络，把「所见」直接变成「所动」——让无人机像猛禽穿林一样，看一眼便侧身钻过比自己还窄、且朝向未知的缝隙。

苍鹰俯冲穿过树干间的缝隙时，从不会在脑子里「计算」那道缝隙有多宽、自己该以什么姿态通过、又已经飞了多远。它只是凝视着缝隙，便侧身掠过。

这种高风险、高精度的「感觉-运动」（sensorimotor）飞行直觉，长期以来是工程系统遥不可及的能力。

现在，浙江大学的最新成果，让自主无人机第一次拥有了类似的「精准飞行直觉」。相关论文 Precise Aggressive Aerial Maneuvers with Sensorimotor Policies 发表于国际权威期刊《Science Robotics》。

如何让一架欠驱动的四旋翼无人机穿过一道狭窄缝隙，是学界已探索十余年的难题，其难度远超想象。

研究团队设置的考验近乎苛刻：一道仅 20×60 厘米的矩形缝隙，最窄处只给机身留 5 厘米余量——而无人机本身就有 10 厘米高。

这意味着它必须像特技飞行员一样，在飞行途中瞬间将机身倾斜、甚至几乎完全侧立（横滚角接近 90°），才能「擦着边」钻过去。

更苛刻的是，它身上只有一台单目相机和一个飞控模块，事先并不知道缝隙在哪里、朝向哪个角度——既不去估计自己飞了多远，也不预先规划一条航线。

本文将从「方法」与「结果」两个维度，拆解这项工作是如何让无人机学会鸟一样的极限穿越的。

什么是「感觉-运动策略」？给无人机一套「飞行本能」

01.

想象一支接力赛队伍。

传统的自主无人机就像这样一支队伍：相机负责「感知」，里程计 / 状态估计模块负责「定位」（估计自己在哪、飞了多远），轨迹规划模块负责「规划」一条航线，最后由控制器「跟踪执行」——一棒接一棒地传递信息。

这套「状态估计—轨迹规划—轨迹跟踪」的模块化流水线在宽松场景下工作良好，却有两个致命弱点：每一次「交棒」都会丢失信息、累积误差。

而当无人机要以接近 90° 的姿态、擦着 5 厘米的边高速钻过窄缝时，任何一环的微小偏差都可能被瞬间放大成坠机。

鸟类却不这样飞。它们没有「里程计」，不会刻意估计自己飞了多远，也不会预先「规划轨迹」——大脑凭借肌肉记忆，把视觉与前庭感觉直接变成肌肉动作，这就是所谓的「感觉-运动」（sensorimotor）回路。

研究团队的核心思路，正是抛弃这套繁复的中间环节，给无人机装上同样的「本能」：

训练一个端到端的神经网络策略，直接把机载单目相机看到的画面 + 无人机自身的惯性感知，映射为底层飞行指令（总推力 + 机体角速度）。

中间没有里程计、没有显式状态估计，也没有任何预先规划的参考轨迹。

就像鸟一样——「看一眼，直接动」。

猛禽飞行穿过树林缝隙

四旋翼无人机穿过狭窄矩形缝隙

方法：如何「教会」无人机这套本能？

02.

让神经网络直接「看图开飞机」听上去美好，训练起来却极其困难：高维的图像观测 + 极其狭窄的可行解空间，让强化学习几乎无从探索。团队用三个关键设计破解了这一难题。

核心一：两阶段「解耦」——先学会飞，再学会看

直接从像素学到控制太难。团队把问题拆成两步：

第一步，先在一个低维的「上帝视角」（oracle MDP，可直接访问精确状态）中，用强化学习训练出一个会穿缝的「专家」；

第二步，通过策略蒸馏（policy distillation）+ 在线模仿学习，让一个只能看到历史图像的「学生」网络去模仿专家的决策，建立起「历史像素 → 动作」的映射。

这样既降低了学习难度，又最终得到一个仅靠机载视觉、不依赖里程计与轨迹规划就能工作的策略。

核心二：「知情重置」——破解狭窄解空间的探索难题

即便在低维的上帝视角里，穿过窄缝的可行解依然像「针眼」一样狭窄：让智能体从零开始随机探索，几乎不可能撞对那条能穿过去的轨迹。

团队提出了名为「知情重置」（Informed Reset，IR）的巧妙策略：先用基于模型的轨迹优化在仿真中生成一批开环可行轨迹，再让强化学习智能体从这些轨迹上的状态出发去探索。

这就像教人穿针引线：与其让他凭空乱试，不如先把他的手引到针眼附近——成功的样本一旦出现，学习便事半功倍。

效果立竿见影：在单个矩形窄缝任务上，不用 IR 时成功率最高只能到约 70%，且需要约三倍的训练样本；启用 IR 后，在同样的样本预算下成功率提升到约 96%，整个强化学习阶段仅需约 1.5 小时。

在更难的连续三窄缝任务中，不用 IR 的智能体甚至完全找不到可行解（会被「先冲过去」的即时奖励困在局部最优，学不会在缝前减速）；IR 让它成功跳出了这个陷阱。

强化学习-蒸馏-部署三阶段控制框架流程图

核心三：仿真到现实——靠「域随机化」练出鲁棒的本能

策略完全在仿真中训练，却要部署到充满气动扰动、电压波动与感知噪声的真实世界，「仿真-现实差距」是最大的拦路虎。

团队在训练中进行了大量域随机化（domain randomization），尽可能撑大策略的「可靠工作状态空间」，让它学会从高维感知中提取稳健的决策线索。

一个意外的收获是：正是域随机化，让策略在从未见过运动缝隙的情况下，也学会了实时跟踪、穿过移动中的缝隙（详见结果部分）。

结果：100+ 次真实飞行，验证四类极限能力

03.

团队搭建了一台尺寸仅 38×10 厘米（桨尖间距）的定制无人机，搭载单目相机、PX4 飞控和 NVIDIA Jetson Orin NX 机载计算单元，全部计算都在机上完成。

在超过 100 次真实穿缝飞行中，系统展现出四类关键能力。

能力一：穿过倾斜近 90° 的矩形窄缝

面对一道 20×60 厘米、最窄处只给机身留 5 厘米余量（机身高 10 厘米）、且朝向事先未知的矩形缝，无人机取得了前所未有的成功率：

横滚角 ≤60° 时，几乎百发百中——30 次中成功 29 次；
横滚角 >60° 时，成功率仍达 90%（30 次中 27 次）；
当缝隙横滚到 90°，策略把机体 x 轴角速度直接拉满到 6 rad/s，让无人机几乎完全侧立着钻过去；
俯仰方向上，30° 时成功率 100%，45° 为 80%，60° 为 73.3%。

值得注意的是，团队从未显式规定「该以什么姿态穿越」，但无人机却自发地在过缝瞬间把机身长轴对齐到缝隙边缘——无需里程计，也无需任何姿态指令，完全靠自己「悟」出了正确姿态。这种能力，很大程度上归功于其采用的深度学习策略在大量仿真试错中形成的内部表征。

即便有时缝隙短暂滑出相机视野（论文中称为「不可见期」），无人机依然能凭借循环神经网络（RNN）维护的「信念状态」稳稳穿过。

不同飞行姿态和位置下的实验结果及推力、角速度、姿态图表

能力二：穿过「会动」的缝隙——尽管从未训练过

研究者手持缝隙框，在无人机飞行途中突然旋转或平移它。尽管策略从未在「动态缝隙」上训练过，无人机却能实时反应：缝隙被旋转，它就调整姿态重新对齐；缝隙向上移动，它就跟着爬升，最终稳稳穿过。

仿真中针对水平单向、水平往复、向下运动等多种运动模式的测试也证实了这一点——图像中的缝隙中心始终被稳稳「锁」在画面中线附近。

消融实验进一步表明，这种「无师自通」的反应能力，正是域随机化带来的。

能力三：连续穿过紧密排布的多道窄缝

团队设计了包含 2~3 道窄缝、且彼此靠得很近的赛道（部分还做了横向错位）。这对探索和真机部署都是更严苛的考验——无人机不仅要快速切换姿态，还要做精细的横向机动。

结果显示，策略在多条赛道上都保持了很高的重复性。

能力四：应对各种奇异形状的开口

不依赖任何手工设定的穿越姿态或定义的视觉特征，团队还训练出能穿过三角形、平行四边形（真机）以及椭圆、菱形（仿真）等多种几何形状开口的策略。

面对三角形缝，无人机一致地把机体平面对齐到三角形最长边（角度偏差大多 <5°）；而面对平行四边形缝，它则展现出多种可行的穿越姿态。

多跑道机器人运动轨迹与速度、力矩实验数据对比图

总结与展望

04.

这项工作是飞行机器人「感觉-运动」智能的一个里程碑：它首次证明，无人机仅凭机载感知，无需里程计、无需轨迹规划，就能以端到端的方式，完成 SE(3) 严格约束下、对精度近乎零容错的极限空中机动。

它把生物式的「直接感知-行动」范式，成功带入了此前被认为必须依赖模块化流水线的高难度任务。

更重要的是，它指向了一个更自由的未来：当无人机能像鸟一样、凭「飞行本能」穿越建筑窗口、树木间隙乃至洞穴入口，飞行机器人可达的任务空间，将被拓展到前所未有的边界。

论文 Precise Aggressive Aerial Maneuvers with Sensorimotor Policies 由浙江大学控制科学与工程学院、浙江大学湖州研究院等单位完成，共同第一作者为巫天越、徐广通，通讯作者为高飞。

作者介绍

巫天越

巫天越侧身照

巫天越（Tianyue Wu），即将前往香港大学攻读博士学位，浙江大学本硕。研究兴趣为机器手以及人形机器人的灵巧操作智能，飞行机器人运动智能。在 Science Robotics，Robotics: Science and Systems 等机器人领域权威期刊与会议上以第一作者发表文章。

徐广通

徐广通户外照

徐广通（Guangtong Xu），杭州电子科技大学自动化学院副研究员。2015 和 2021 年在北京理工大学分别获得学士和博士学位。2021-2023 年在清华大学精密仪器系从事博士后研究。2023-2026 年在浙江大学湖州研究院开展科研工作，此期间完成以上工作。主要研究领域为飞行机器人自主导航、运动规划、集群协同等。在 TASE、RA-L、ICRA、IROS 等机器人领域期刊/会议上发表论文数篇。

高飞手持无人机模型

高飞（Fei Gao），浙江大学控制科学与工程学院长聘副教授、研究员、博士生导师。研究兴趣为机器人规划、建图、状态估计，集群机器人，机器人学习。微分智飞（Differential Robotics）创始人兼首席执行官，国家自然科学基金“优秀青年科学基金项目”（优青，2024–2026）获得者。在 Science Robotics, Transactions on Robotics 等权威期刊以第一作者或通讯作者发表论文。

上一篇：大疆Pocket 4P深度评测：双摄云台相机能否撼动传统相机地位？
下一篇：Codex插件BioRender：科研图示设计指南（附提示词模板）

无人机, 感知运动策略, 强化学习, 科学机器人, 端到端学习