即插即用!长安汽车复旦提出LMPOcc:长期记忆先验实现占用预测任务新SOTA
导读
在基于视觉的自动驾驶感知算法当中,3D语义占用预测任务可以出色的对静态场景和动态目标同时进行建模,实现细粒度的场景理解,目前受到了来自学术界和工业界的广泛关注。
©️【深蓝AI】编译
论文题目:ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy
论文作者:Yuhui Chen,Shuai Tian, Shugao Liu, Yingting Zhou, Haoran Li, and Dongbin Zhao
论文地址:https://arxiv.org/pdf/2502.05450
代码地址:https://cccedric.github.io/conrft/
1、引入
在自动驾驶车辆实际行驶过程中,可能会在不同时间点多次行驶经过相同的地理坐标位置。但由于天气条件、光照变化和遮挡等动态环境因素的影响,自动驾驶感知算法的预测结果会出现显著的差异。因此,从当前位置的历史信息中获取感知结果作为先验知识,能够提供重要的概率约束,以缓解当前时间观测窗口内实时传感器观测的不足。
现有的感知算法通常采用BEV特征对齐、自注意力机制或者3D卷积来实现级联帧的信息融合,如图1(a)所示。但这类方法依旧无法解决当遇到严重遮挡或光照不足等具有挑战性的观测条件时,检测性能仍然不理想的问题,因为当前和相邻的观测都受到共同挑战条件的影响。
图1:3D占用预测任务中不同时序融合算法对比
在这种情况下,利用在有利观测条件下从同一位置收集的历史感知信息可以有效解决这一限制。因此,将长期记忆先验整合到3D占用预测中至关重要。
结合上述分析,本文提出了长期记忆先验占用算法,一种通过利用不同时间戳下同一空间位置的历史感知信息,将跨时间长期记忆先验融入3D占用预测的算法框架。在Occ3D-nuScenes数据集上的实验结果表明LMPOcc算法能够有效提升3D占用预测任务的性能,并实现了SOTA的结果。
本文主要贡献如下:
本文提出了LMPOcc算法模型,首个利用从相同地理位置的历史感知输出中生成的长期记忆先验的3D占用预测方法。
本文开发了一种即插即用的架构,该架构通过长期记忆先验增强局部感知,同时构建全局占用表示。
在Occ3D-nuScenes基准上实验表明,LMPOcc实现了SOTA的性能,尤其在静态语义类别上表现突出。此外,LMPOcc展示了通过多车众包构建全局占用的能力。
算法模型与实验细节
本文提出的LMPOcc算法模型的整体网络结构如图2所示。整体可以看出LMPOcc通过融入长期记忆占用先验模块LMOP来扩展占用预测模型。
图2:LMPOcc算法模型的整体网络结构图
具体而言,该算法框架的输入包括环视图像以及自车由局部到全局坐标的转换关系。输入的环视图像通过Occupancy Encoder完成图像特征编码,随后这些特征被送入到LMOP模块中用于获得增强的占用逻辑结果,随后这些结果通过Occupancy Decoder进行处理得到最终的3D语义占用预测。
长期记忆占用先验
在LMOP模块中,全局占用采用稀疏地图块结构,每个块在几何上与物理坐标对齐,并且初始化为空状态。稀疏地图块结构通过仅存储可通行的城市区域来降低内存使用量。其基于坐标的索引方式允许车辆根据需求加载特定地图区域,消除了存储整个城市地图的需求。对于每一个块而言,作者迭代更新全局占用表示。
考虑到BEV形式的先验信息降低了存储成本并提高了局部和全局索引的效率,局部和全局的先验特征被表示为BEV形式。
此外,本文为了对齐局部和全局占用的对应关系,通过卷积层对齐先验和当前特征通道,然后将当前特征与先验特征融合,以增强局部感知。增强的感知输出作为更新的先验,替换全局占用中相应的先验特征。
当前先验融合
当前先验融合模块包括两个分支,分别是拼接分支和基于元素相加分支。拼接分支将当前特征和先验特征
形成结合特征,如下公式所示。
基于元素相加的分支,通过如下的方式得到二者基于元素相加的结果。
两个分支得到的特征进行拼接,并通过Sigmoid激活函数得到一个张量,如下所示。
该张量充当一个加权因子用于动态的调节当前特征和先验特征在融合过程中的贡献程度。
模型无关先验格式
先验信息以占用逻辑值的形式存储,确保全局占用率先验信息在部署期间不受任何特定占用率预测模型的影响。为了避免在先验中存储可见区域之外的噪声,本文采用相机可见性掩码来保留占用逻辑单元可观察区域内的内容。
相机可见性掩码是通过从每个已占用体素中心向相机原点投射射线来确定的。沿着每条射线,第一个相交的已占用体素被标记为“已观察”,而同一射线上的后续体素则被标记为
“未观察”。任何未与这些射线相交的体素都会自动被分配“未观察”状态。
实验
本文在Occ3D-nuScenes数据集上验证提出算法的有效性,并且采用mIoU标准作为评价算法模型实验效果的指标。
图3展示了在Occ3D-nuScenes数据集上LMPOcc与其他SOTA算法模型的比较结果汇总。
图3:Occ3D-nuScenes数据集不同算法模型的结果对比
通过实验结果可以看出,在具有相似实验条件的情况下,LMPOcc-S和LMPOcc-L算法模型均超过其他算法,实现了最优的检测性能。
为了更加直观的展示本文提出算法模型的有效性,本文将不同算法模型的感知结果进行了可视化,如图4所示。
图4:LMPOcc和DHD算法模型的感知结果可视化
此外,本文提出的LMPOcc算法模型作为一种即插即用的模块可以集成到其他Occupancy算法模型中,图5展示了将LMOP分别集成到FlashOcc以及DHD算法中的实验结果。通过实验结果可以看出,LMOP持续提升了Occupancy算法模型的感知性能。
图5:集成LMOP的不同算法模型实验结果
本文中作者也通过消融实验的方式来验证所提出的不同模块的效果,如图6所示。
图6:消融实验结果汇总
通过实验结果可以看出,本文提出的各类模块均能一致提升算法模型的感知性能。
本文提出的LMPOcc算法模型在全局占用地图的结果如图7所示,在增强局部感知能力的同时,LMPOcc算法模型能够构建大规模的场景占用表示。
图7:全局占用地图可视化结果
图8展示了通过众包协作构建全局占用图的示意图。
图8:基于众包方式构建全局占用示意图
结论
本文提出了一种新颖的3D占用预测框架LMPOcc,该框架有效利用历史信息中的长期记忆先验来提升局部感知性能,同时构建统一的全局占用表示。这使其能够通过众包方式实现城市级占用地图的构建。在Occ3D-nuScenes数据集上的实验结果表明,LMPOcc 在局部占用预测中实现了SOTA的感知性能。