自动驾驶系统要安全地在复杂世界中行驶,关键在于其“预见未来”的能力。这种能力不应仅局限于识别出的特定对象,还需对环境中所有潜在的动态保持警觉。近期,来自法国的研究团队提出了一种创新框架,将“专用代理预测”与“通用动态占据预测”深度耦合,为自动驾驶环境理解提供了兼具精确性与鲁棒性的“双保险”方案。
自动驾驶预测的两条传统路线
目前的自动驾驶预测模型主要分为两条技术路线:
-
专用代理预测 (Agent-Specific Prediction):这类方法依赖强大的目标检测与识别能力。它识别出具体的车辆、行人等实体,并追踪其轨迹以预测未来行为。其优势在于能够理解特定对象的意图(如变道),但劣势在于严重依赖识别结果的准确性,对于未识别、被遮挡或新奇的物体无能为力。
-
通用动态占据预测 (Agent-Agnostic Dynamic Occupancy Prediction):这类方法不关心物体“是谁”,只关心“哪里可能有东西在动”。它通常基于激光雷达点云,生成鸟瞰图下的动态占据栅格地图(DOGM)。DOGM将环境划分为网格,每个网格预测其被未知、静态或动态物体占据的概率及速度。此方法泛化能力强,能感知任何移动,但难以理解对象的整体行为语义。
融合框架的核心思想
该研究提出的框架旨在融合上述两条路线的优点。其核心在于引入 “场景流 (Scene Flow)” 作为统一的物理运动表示,并以此为基础设计一个多任务学习网络,强制专用预测与通用预测在运动逻辑上保持一致。
整个预测框架的输入融合了多传感器信息。输入序列 X_t 是一个6通道的时空张量,由以下信息在鸟瞰图视角下拼接而成:
X_t = concat(O_unk, O_stat, O_dyn, v_x, v_y, S)
其中,O_unk、O_stat、O_dyn 分别代表未知、静态、动态的占据状态栅格,v_x 和 v_y 是速度栅格的两个分量,S 是来自摄像头图像经BEV编码后生成的车辆语义分割栅格。DOGM状态/速度栅格由激光雷达点云通过贝叶斯滤波器生成,而车辆语义栅格则通过一个融合了RGB图像特征和占据状态的解码器预测得到。
网络架构与工作流程
该框架的网络是一个多任务预测系统,其工作流程可概括为四个步骤:
第一步:时空编码与未来状态建模
过去多帧(如1秒内)的6通道输入序列被送入一个由卷积长短时记忆网络(ConvLSTM)构成的核心编码器。为了建模未来的不确定性,网络采用了条件变分自编码器的思想,学习一个关于未来可能性的隐变量分布。
第二步:“三头”解码,同步输出
编码后的特征被送入三个并行的解码器头,分别生成以下输出:
- 检测头 (DETECTION HEAD):输出当前时刻(
t=0)的车辆栅格 Z_det 和通用动态占据栅格 O_dyn。
- 预测头 (PREDICTION HEAD):输出未来
T 帧(t=1,...,T)的车辆预测栅格序列 Z_pred 和场景流栅格序列 P_flow。
- DOGM预测头 (DOGM PREDICTION HEAD):输出未来
T 帧的通用占据状态栅格序列 Z_ogm(包含未知、静态、动态状态)。
因此,网络的完整输出 Ŷ 定义为:
Ŷ = {Z_det, Z_pred_1:T, Z_ogm_1:T}
第三步:流引导的损失函数——融合的关键
这是该框架的创新核心。通过引入“场景流”和基于流的翘曲操作 (Flow-based Warping),模型将不同任务的预测紧密耦合。
具体而言,网络预测的是“向后流”(Backward Flow),即每个网格指向其在上一帧位置的向量。利用这个流,可以将当前时刻检测到的车辆栅格或动态占据栅格,“翘曲”至下一帧的预测位置,生成翘曲后的预测栅格(例如 W_veh 或 W_dyn)。
关键的精妙之处在于,这个通过流“翘曲”出来的预测栅格,需要与预测头“直接”预测出的对应未来栅格(Z_pred 或 O_dyn)进行比较,计算一致性损失。这就强制模型学习一个全局一致且准确的运动场(场景流),该运动场必须能同时解释被识别车辆的运动和未被识别动态物体的运动趋势。
第四步:联合优化
模型的训练目标是最小化一个复合损失函数,该函数整合了:
- 各解码器头自身的监督损失(如车辆预测的交叉熵损失、DOGM预测的均方误差损失)。
- 流预测本身的监督损失。
- 上述提到的流引导的翘曲一致性损失。
最终,网络参数 θ 通过以下优化目标求解:
`θ = arg min_θ L(Ŷ, Y) 其中L是上述各项损失的加权和,Y` 是真实标签。
实验验证与性能分析
研究在两个主流的自动驾驶数据集(nuScenes 和 Woven Planet)上进行了全面评估。
定性结果展示:
在一个包含两辆动态车辆和多个行人的城市路口场景中,该框架不仅准确预测了前方车辆的行驶轨迹,在其通用动态占据预测通道中,也清晰地预测出了行人的运动趋势,成功体现了“专用”与“通用”预测的结合。
定量性能对比:
在动态车辆的轨迹预测精度(MSDE, FDE指标)上,该框架的完整模型在两个数据集、多个预测时长上都取得了最佳或接近最佳的表现,证明了语义信息的融合提升了特定对象的预测精度。
通用预测能力评估:
为了评估对非车辆动态物体(主要是行人)的预测能力,研究计算了“翘曲动态栅格 W_dyn”的动态行人召回率。结果表明,W_dyn 的性能显著超越了仅使用DOGM的基线方法。这强有力地证明,通过流引导将语义信息与占据预测耦合,能大幅提升对未识别动态物体的感知与预测能力。
消融实验:
详细的消融研究验证了各个组件的有效性,包括车辆语义输入、流引导损失等。实验数据表明,移除任何关键组件都会导致性能下降,尤其是对通用动态物体的预测召回率影响显著。
方法优势与未来展望
该框架的主要优势在于:
- 开创性融合:在特征、训练目标和输出层面深度统一了专用与通用预测。
- 巧妙的监督机制:以场景流为核心设计一致性损失,是方法有效的关键。
- 性能全面提升:同时提升了对已知车辆的预测精度和对未知动态的感知能力。
当然,作为前沿研究,它也面临一些挑战:
- 计算成本:多解码头与复杂损失计算增加了推理负担,实时性优化是落地关键。
- 语义类别有限:目前仅融合了“车辆”语义,未来可扩展至行人、自行车等多类别。
- 交互建模较浅:对智能体间复杂交互的显式建模能力有待加强。
未来工作可沿着轻量化设计、多类别语义融合、深度交互建模等方向深化。这种“专用+通用”的双轨预测思想,为构建更鲁棒、更安全的自动驾驶感知与预测系统提供了极具价值的范式参考。在 yunpan.plus 上,开发者们可以找到更多关于人工智能与智能 & 数据 & 云领域的前沿讨论与技术实践。
核心概念辨析
- DOGM是什么? 动态占据栅格地图 (Dynamic Occupancy Grid Map) 在传统占据栅格(表示有无物体)的基础上,增加了每个栅格的速度估计和动态/静态状态概率,能更精细地刻画环境中的运动信息。
- 场景流 vs. 光流:光流描述2D图像平面上像素的运动,而场景流描述3D空间中点的运动。在鸟瞰图表示下,场景流可近似理解为地面栅格单元的运动矢量,包含了物理尺度信息。
- 为何使用“向后流”? 向后流(指向上一帧位置)能更自然地处理物体出现、消失和遮挡情况,且在视频任务中被证明更稳定。
参考资料
[1] 自动驾驶“双保险”:法国团队提出融合车辆识别与通用动态预测的新框架, 微信公众号:mp.weixin.qq.com/s/w5YpRx8l8AUA0HeyPSoDPg
版权声明:本文由 云栈社区 整理发布,版权归原作者所有。