自动驾驶协同感知通过车辆间共享信息来扩展感知范围,已成为实现高阶自动驾驶的关键技术。为了降低通信带宽需求,业界普遍采用共享BEV(Bird’s Eye View)特征这种数据量更小的“语义地图”作为协同感知的“硬通货”。然而,来自郑州大学、郑州航空工业管理学院及多伦多城市大学的研究团队在论文中指出,共享的BEV特征可能带来严重的隐私泄露风险,恶意攻击者能够从中重建出原始的视觉图像。为此,他们提出了一种名为隐私隐藏协同(Privacy-Concealing Cooperation, PCC) 的对抗学习框架,能够在几乎不影响协同感知性能的前提下,为共享的BEV特征“打码”,有效防止图像被恶意重建。
共享BEV特征的隐私泄露风险
协同感知让多辆自动驾驶车辆能够相互分享感知信息,从而获得超越单车传感器的“上帝视角”。但出于对带宽和实时性的考虑,车辆间通常不传输原始的摄像头图像或视频,而是传输经过处理的BEV特征。BEV特征是一种鸟瞰视角下的特征图,编码了场景的语义信息(如道路、车辆、行人等的位置)。
研究团队揭示了一个此前被忽视的重大安全隐患:共享的BEV特征并非完全“去视觉化”。根据论文中的攻击场景示意图,一个位于通信范围内的恶意车辆(Malicious ego),可以通过接收其他协同车辆(Agent 1, Agent 2)共享的BEV特征,并利用一个图像重建模型,还原出清晰的原始摄像头视角的图像。
这意味着,恶意攻击者可以远程、被动地窃听车辆间的通信,通过特征重建技术,窥探到包括其他车辆型号、颜色、行人外貌甚至周边建筑细节在内的敏感视觉信息。这为追踪特定车辆(如警车、押运车)或窃取周边环境情报提供了可能性,使得原本旨在提升安全性的协同感知系统,反而可能成为新的安全漏洞。
PCC框架:以对抗学习实现特征脱敏
为了解决这一矛盾,研究团队提出了PCC框架。其核心思想是利用对抗学习,让模型自身在“攻击”与“防御”的博弈中找到一个平衡点,使得输出的BEV特征既能让下游感知模型有效利用,又能有效抵抗图像重建攻击。
该框架包含三个核心组件,形成了一种“矛与盾”的动态博弈关系。
-
隐藏网络 (Hiding Network, H):这是部署在每辆协作车上的“防御者”。其作用是接收本车生成的原始BEV特征,并对其进行变换处理,生成用于共享的、隐藏隐私的特征。
B_s = H(B_o).
其中,B_o 是原始BEV特征,B_s 是共享的、隐藏隐私后的BEV特征。
-
重建网络 (Reconstruction Network, R):这是扮演“攻击者”的模型。其目标是尽可能地从共享特征 B_s 中重建出原始的视觉图像 Î。
Î = R(B_s).
其性能通过重建损失函数 L_Rec 来衡量,该函数由像素级绝对误差 L_dis 和感知损失 L_perc 加权组成。
L_Rec = L_dis + αL_perc.
重建网络的目标是最小化 L_Rec,即让重建图像在像素和语义层面都尽可能接近原图。
-
感知网络 (Perception Network, P):这是下游执行具体协同感知任务(如BEV语义分割)的模型。它接收来自各车辆(包括自身)共享的 B_s,并输出最终的感知结果(如分割图)。其训练目标是标准的交叉熵损失 L_Coop。
L_Coop = L_Seg = CrossEntropy(P(B_s), GT).
对抗训练的博弈过程
整个PCC框架的训练被形式化为一个极小极大博弈问题,其目标是找到隐藏网络H和重建网络R之间的纳什均衡。
min_R max_H J(R, H) = L_Rec(B_o, I; R, H).
同时,还需要保证隐藏网络H和感知网络P的合作性能不受损。
min_H,P L_Coop(B_o, GT; H, P).
在具体训练中,采用交替优化的方式:
- 步骤一:更新重建网络(强化“矛”)。固定隐藏网络H,优化重建网络R,使其能够从当前“打码”后的特征中更好地重建图像。
min L_R = L_Rec(B_o, I; R, H).
- 步骤二:更新隐藏与感知网络(强化“盾”)。固定重建网络R,优化隐藏网络H和感知网络P。隐藏网络H的目标是双重的一方面要保证感知任务性能,另一方面要最大化重建难度。这通过一个组合损失函数实现:
min L_H = L_Coop(B_o, GT; H, P) - λL_Rec(B_o, I; R, H).
其中,λ是一个权衡参数。L_Coop 项鼓励保留对感知任务有用的信息,而 -L_Rec 项则鼓励破坏重建网络R赖以复原图像的信息模式。通过这种对抗性训练,隐藏网络H学会了对原始BEV特征进行一种“精准干扰”,在最小化感知性能损失的前提下,最大化重建难度。
轻量化隐藏网络设计
考虑到车载计算单元的实时性与资源约束,PCC框架中的隐藏网络H被设计得极为轻量。它是一个仅有6层1x1卷积的微型网络,穿插了InstanceNorm和Dropout层以增强稳定性和随机性。整个网络仅包含约21.44万个参数。这种设计确保了以下优点:
- 超轻量:计算开销极小,推理延迟仅增加约15毫秒(在实验平台上从158.75ms增至174.23ms)。
- 即插即用:输入输出特征图维度相同,可无缝集成到现有的各类协同感知系统中,无需修改后续的融合与感知模块。
- 通道级扰乱:1x1卷积专注于混合和扰乱不同通道间的信息,有效打乱与视觉内容强相关的特征模式,从而实现隐私保护。
实验效果:在隐私与性能间取得平衡
研究团队在OPV2V数据集上,以当前先进的协同BEV语义分割模型CoBEVT为基线,对PCC框架进行了验证。
定量结果
评估指标分为两类:视觉隐私保护效果和保留的感知性能。
| 指标 |
COBEVT (原始BEV) |
PCC (隐私保护BEV) |
趋势 |
| 视觉线索隐藏 |
|
|
|
| FID (↑ 越大越好) |
281.5 |
378.1 |
↑ |
| PHV τ=0.01 (↑ 越大越好) |
0.7119 (平均) |
0.7362 (平均) |
↑ |
| SSIM (↓ 越小越好) |
0.3524 |
0.3471 |
↓ |
| PSNR (↓ 越小越好) |
13.4418 |
12.8889 |
↓ |
| 鸟瞰图分割 |
|
|
|
| IoU (%) (↑ 越大越好) |
57.2913 |
57.2768 |
≈ |
| 推理时间 (ms) |
158.75 |
174.23 |
↑ (+15.48ms) |
注:FID、PHV、SSIM、PSNR均为评估重建图像与原始图像差异的指标。IoU为分割任务交并比,衡量感知性能。
结果显示,PCC在几乎所有隐私保护指标上都优于原始BEV特征,表明其能显著增加图像重建的难度。最令人惊喜的是,在如此有效的隐私保护下,核心感知性能IoU仅下降了微不足道的0.0145个百分点。额外的计算开销也在可接受范围内。
定性结果
通过视觉对比可以更直观地看到效果。实验展示了三组不同场景的对比结果:
- 原始输入图像:清晰展示了郊区道路、城市街道和高架桥下的车辆与场景细节。
- 从原始BEV特征重建的图像:保留了大量的车辆轮廓、颜色甚至部分纹理细节,隐私泄露明显。
- 从PCC隐藏后BEV特征重建的图像:画面变得高度模糊,仅剩下无法辨识具体物体的色块和光影,车辆、建筑等关键细节被有效抹去。
这些实验结果强有力地证明,PCC框架能够在不损害感知性能的前提下,极大地提升共享BEV特征的视觉隐私安全性。
挑战与展望
PCC框架为协同感知的隐私保护提供了一个新颖且实用的起点,但仍有多个方向值得深入探索:
- 更强的攻击模型:当前实验中的重建网络是相对固定的。现实中的攻击者可能使用更复杂的模型,甚至结合额外的先验知识(如3D车辆模型库)进行攻击。PCC框架对此类自适应攻击的鲁棒性需要进一步评估。
- 任务泛化性:目前工作聚焦于BEV语义分割任务。该框架是否同样适用于3D目标检测、轨迹预测等其他协同感知任务,需要验证。
- 形式化安全证明:对抗学习提供了实验上的指标提升,但如何从理论上形式化地定义和证明PCC所提供的“隐私保护”程度,是未来重要的研究方向。
- 多层次安全体系:对抗性隐私保护是一种“语义层”防御。考虑将其与传统加密、安全多方计算等“语法层”技术结合,构建纵深防御的安全协同感知体系,可能提供更全面的保障。
结语
郑州大学等团队提出的PCC框架,成功地将对抗学习思想应用于解决自动驾驶协同感知中的隐私泄露这一现实痛点。它通过设计一个超轻量的隐藏网络,在共享的BEV特征中巧妙地引入“噪声”,实现了“语义层面”的隐私保护。其实验结果表明,该方法能以极低的感知性能损失为代价,显著提升对抗恶意图像重建攻击的能力。这项工作不仅为解决协同感知的隐私安全问题提供了新思路,也强调了在下一代自动驾驶系统设计中,安全性必须与功能性一同作为核心优化目标进行通盘考量。这一研究方向,尤其是在 人工智能 驱动的自动驾驶系统安全领域,具有重要的学术价值和广阔的应用前景。
参考资料
[1] 自动驾驶“防偷窥”新招:郑州大学等提出对抗性隐私保护,让BEV特征“打码”后共享, 微信公众号:mp.weixin.qq.com/s/Bn3e9ayZE0ftwS36MoJ4KQ
版权声明:本文由 云栈社区 整理发布,版权归原作者所有。