当前位置: 首页 > news >正文

OCC任务新SOTA!华科提出SDGOCC:语义深度双引导的3D占用预测框架(CVPR 2025)

引入

对周围环境的精确三维感知是自动驾驶系统和机器人技术的基石,可确保高效的规划和安全的控制。近年来,工业界和学术界已经极大推动了3D目标检测任务的发展。但3D目标检测依赖于严格的3D边界框,因此很难识别任意形状或未知的目标。

在此背景下,3D语义占用预测任务提供了一种更加全面的环境建模方式,并且同时估计场景体素的几何结构和语义类别,为每个3D体素分配标签,并提供更完整的感知,对任意形状和动态遮挡表现出更强的鲁棒性。

此外,利用激光雷达和摄像头数据的互补优势进行多模态融合,对于各种3D感知任务至关重要。然而由于模态之间的差异性,多模态的3D占用预测任务仍然具有很大的挑战性。现有的方法通常采用基于LSS的视角转换方式来构建BEV特征,但所得到的稀疏BEV特征仅有50%的网格接收到了有效特征(如图1(a))所示。

图1不同构建方式的BEV特征可视化

信息,但同时处理点云和图像的融合方法会带来繁重的计算负担,从而增加实时应用的压力。

基于上述提到的相关问题,并且为了引入多模态信息互补的优势。本文提出了一个多模态3D语义占用预测框架SDGOCC旨在通过融合BEV视角的LiDAR信息来实现更高的准确率和具有竞争力的推理速度。实验结果表明,本文提出的方法在Occ3D-nuscenes和SurroundOcc-nuScenes数据集上实现了SOTA的性能。

图2不同算法模型在Occ3D-nuScenes数据集上的比较结果

本文的主要贡献如下

 本文引入了一种多模态3D语义占用预测框架,称为SDGOCC,旨在通过从BEV 视角融合LiDAR信息来实现更高的准确度和具有竞争力的推理速度。

 本文提出了一种新颖的视图变换方法,利用点云的几何和语义信息来指导二维到三维视图的变换。显著提高了深度估计的准确性,并提高了语义占用的速度和准确性。

 本文提出了一个融合占用驱动的主动蒸馏模块,该模块集成了多模态特征,并根据 LiDAR识别的区域选择性地将多模态知识迁移到图像特征中。

 本文的方法在Occ3D-nuScenes数据集上通过实时处理实现了SOTA性能,并在更具挑战性的SurroundOcc-nuScenes验证数据集上表现出了相当的性能,证明了方法的有效性。

本文提出的SDGOCC算法模型的整体结构如图3所示。主要由四个关键模块组成,分别是图像编码器模块、SDG视角转换模块、主动蒸馏模块以及占用预测头模块。

图3SDGOCC算法模型的整体网络结构图

图像编码器模块

图像编码器模块的作用在于捕捉多视角的图像特征,为后续由2D到3D的视角转换模块提供基础。

SDG视角转换模块

本文提出了一种新颖的视角转换模块,通过利用来自激光雷达点云稀疏深度信息作为先验,并在同一语义类别内进行扩散,从而实现更高性能的视觉转换,如图4所示。

图4SDG视角转换模块网络结构

具体而言,本文提取多视角图像的特征并且利用多任务头生成语义分割掩码,同时提取图像上下文特征和深度分布权重,其中深度预测头和语义分割头通过门控注意力补充跨任务的信息。

本文考虑到图像和点云之间的稀疏性差异,将图像语义分割掩码和LiDAR提供的稀疏投影深度图相结合,以扩散同一语义类别掩码内的深度值,从而生成半密集的扩展深度图,如下所示:

\begin{aligned} D_{\mathrm{temp}}(i,j) & =\frac{\sum_{(p,q)\in N(i,j)}D(p,q)\cdot\mathbb{I}[M(p,q)=M(i,j)]}{\sum_{(p,q)\in N(i,j)}\mathbb{I}[M(p,q)=M(i,j)]} \end{aligned}

由于二维像素到三维点的投影存在偏差,本文对扩展深度图应用双向线性增量离散化,以获得离散的虚拟点,从而提高深度估计的精度。最后,通过外积计算图像纹理特征和深度分布权重,为每个虚拟点提取特征,并通过BEV池化生成相机的BEV特征。

主动蒸馏模块

图5主动蒸馏模块的流程图

将图像特征作为源特征,通过线性层投影获得查询特征。将LiDAR点云特征作为交叉特征进行投影,以获得键值和值特征。查询点的局部邻域特征通过以下公式计算:

$F_\mathrm{neighbor}=\sigma\left(\frac{Q_s^i\cdot(K_c^{n(i)})^T+B(i,n(i))}{\sqrt{v}}\right)\cdot V_c^i$

对于特征图中的每个像素,本文都会计算局部邻域特征。然后通过门控注意力机制从邻域特征中获得融合特征:

F_{bev}^{fuse}=(\sigma(\mathrm{Conv}(f_\mathrm{Avg}(F_\mathrm{neighbor})))\cdot F_\mathrm{neighbor}

此外,为了确保实时性,本文也提出了一种占用率驱动的主动蒸馏方法。LiDAR点云特征作为源特征,图像特征作为交叉特征,从而得到以LiDAR为主导的融合特征。

通过将将空间划分为两个区域活动区域以及非活动区域,如下所示。

AR=(M_{\mathrm{fused},i,j}=1)\wedge(M_{\mathrm{img},i,j}=1) \\ IR=(M_{\mathrm{fused},i,j}=1)\wedge(M_{\mathrm{img},i,j}=0)

此外,为了防止模型过分强调AR区域的知识提炼,本文根据AR和IR区域的相对大小应用自适应缩放,如下所示

来自于教师和学生的BEV特征蒸馏损失为,最终利用蒸馏损失和分类损失之和来训练网络

L_{\mathrm{distill}}=\sum_{c=1}^C\sum_{i=1}^H\sum_{j=1}^WW_{i,j}\left(F_{bev}^{fuse}-F_{bev}^C\right)^2

本文研究在Occ3D-nuScenes和SurroundOcc数据集上进行了实验分析来验证所提算法的有效性。图6展示了提出的算法模型与其他栅格占用预测算法模型在Occ3D-nuScenes数据集上的实验结果对比。

图6在Occ3D-nuScenes数据集上的实验结果汇总

图7本文提出算法模型的感知结果可视化

展示了提出的算法模型与其他栅格占用预测算法模型在SurroundOcc数据集上的实验结果对比。通过结果可以看出,本文提出的算法模型实现了最佳的感知性能。

图8在SurroundOcc数据集上的实验结果汇总

图9消融实验结果汇总

通过实验结果可以看出,提出的所有模块均对模型的感知性能进行了贡献,进而证明了所提模块的有效性。

本文提出了一种多模态三维语义占用预测框架SDGOCC,旨在通过融合BEV视角的 LiDAR信息,实现更高的准确率和具有竞争力的推理速度。本文提出的方法在Occ3D-nuScenes数据集上实现了实时处理的最高性能,并在更具挑战性的SurroundOcc-nuScenes数据集上取得了相当的性能,证明了其有效性。

http://www.dtcms.com/a/310103.html

相关文章:

  • 基于Pipeline架构的光存储读取程序 Qt版本
  • ansible简单playbook剧本例子3-安装nginx
  • Typora v1.10.8 好用的 Markdown 编辑器
  • 【2】专业自定义图表创建及应用方法
  • flutter release调试插件
  • 通过pendingIntent启动activity被block问题
  • C语言数据结构(3)单链表专题1.单链表概述
  • NDBmysql-cluster融合脚本
  • (二)LoRA微调BERT:为何在单分类任务中表现优异,而在多分类任务中效果不佳?
  • Spring Boot微服务性能优化实践指南:从配置到监控
  • SpringCloud(一)微服务基础认识
  • 什么是三防平板电脑?三防平板有什么作用?
  • 浏览器【详解】自定义事件 CustomEvent
  • AUTOSAR进阶图解==>AUTOSAR_SRS_FlashTest
  • EasyGBS的两种录像回看
  • ROS主控和stm32小车底盘通过串口进行通讯
  • 信奥骗分导论
  • 镜像快速部署ollama+python+ai
  • 光储知识积累
  • 全渠道融合:智能引擎重塑鞋服业价值链条
  • 88、【OS】【Nuttx】【启动】栈溢出保护:volatile 关键字(修饰内联汇编)
  • 15day-人工智学习-机器学习-介绍和定义
  • 【Linux】Linux下基本指令
  • 【暑期每日一题】洛谷 P9390 金盏花
  • SketchUp扩展工具分享:Ropefall v1.02插件轻松实现绳索模拟
  • 京东云轻量云服务器与腾讯云域名结合配置网站及申请SSL证书流程详解
  • 【Linux】磁盘存储+文件系统简介
  • android嵌套网页遇到的问题总结
  • mac系统自带终端崩溃修复
  • 使用自定义数据集训练 YOLOv12 以检测道路坑洞严重程度