【论文阅读】Far3D: Expanding the Horizon for Surround-view 3D Object Detection
标题: Far3D: Expanding the Horizon for Surround-view 3D Object Detection
motivation
作者觉得市面上的方法对远处的long-range 的3d-od检测没有深入研究,于是作者提出FAR3D. 基于环视图像的3D物体检测取得了显著进展,且其部署成本较低。然而,大多数研究主要集中在近距离感知范围内,而对远距离检测的探索较少。直接将现有方法扩展到覆盖远距离面临着高计算成本和不稳定收敛等挑战。为了解决这些限制,本文提出了一种新颖的稀疏查询基础框架,称为Far3D。通过利用高质量的2D物体先验,我们生成与3D全局查询互补的3D自适应查询。为了有效捕捉不同视角和尺度下的具有区分性的特征以应对远距离物体,我们引入了一个感知视角聚合模块。此外,我们提出了一种范围调制3D去噪方法,以解决查询误差传播并缓解远距离任务中的收敛问题。值得注意的是,Far3D在挑战性的Argoverse 2数据集上表现出最先进的性能,覆盖150米的广泛范围,超越了多个基于LiDAR的方法。
[代码] ( https://github.com/megvii-research/Far3D )
methods
- 将环视图像输入主干网络和 FPN 层,编码得到 2D 图像特征,并将其与相机参数进行编码。
- 利用 2D 检测器和深度预测网络,生成可靠的 2D 物体框及其相应深度,然后通过相机变换投影到 3D 空间。
- 生成的3D adaptive query 与初始的 3D global query 相结合,由解码器层迭代回归,以预测 3D 物体框。更进一步,该模型可通过长时序的 query 传播实现时序建模。
背景介绍: 现有的环视感知方法可以大致分为两类:基于BEV表征和基于稀疏查询表征的方法。基于BEV表征的方法由于需要计算密集的BEV特征,计算量非常大,难以扩展到远距离场景。而基于稀疏查询表征的方法会从训练数据中学习到全局的3D查询,计算量相对较小,且具有较强的扩展性。然而,它也存在一些弱点,尽管可以避免查询数量的平方增长,但全局固定查询不易适应动态场景,在远距离检测中通常会遗漏目标。
在远距离检测中,基于稀疏 query 表征的方法有两个主要挑战:
- 首先是召回性能较差。由于 query 在 3D 空间分布的稀疏性,在远距离范围只能产生少量匹配的 positive query。如上图所示,3D 检测的召回率较低,而现有 2D 检测的召回率要高得多,两者之间存在明显的性能差距。因此,利用高质量的 2D 物体先验来改进 3D query 是一种很有潜力的方法,它有利于实现物体的精确定位和全面覆盖。
- 其次,直接引入 2D 检测结果来帮助 3D 检测会面临误差传播的问题。如下图所示,两种主要来源是 1) 由于深度预测不准的物体定位误差;2) 随着距离的增大,视锥变换中的 3D 位置误差也会增大。这些 noisy query 会影响训练的稳定性,需要有效的去噪方法来优化。此外,在训练过程中,模型会表现出对密集的近距离物体过度拟合的倾向,而忽略稀疏分布的远距离物体。
Adaptive Query Generation
具体方法:在 FPN 颈部之后,我们将图像特征输入 YOLOX 的无锚检测头和一个轻量级深度估计网络,输出 2D 框坐标、得分和深度图。2D 检测头遵循原始设计,而深度估计则通过将深度离散化为多个区间被视为分类任务。然后,我们将 2D 框和相应的深度配对。为了避免低质量提议的干扰,我们设定了一个得分阈值 τ(例如 0.1),仅保留可靠的proposals。对于每个视图 i,来自 2D 预测的框中心 (cw, ch) 和深度图中的深度 depth 被组合并, 投影到 3D-proposal中心 c3d。
K,I内外参。
然后把它编码到query中去:
生成的3D adaptive query 与初始的 3D global query 相结合,由解码器层迭代回归,以预测 3D 物体框。
Perspective-aware Aggregation
为了给远距离检测模型引入多尺度特征,作者应用了 3D spatial deformable attention。它先在 query 对应的 3D 位置附近进行偏移采样,而后通过 3D-2D 视图变换聚合图像特征。这种方法替代 PETR 系列中的 global attention 的优势在于,计算量可以大幅降低。具体地,对于 3D 空间中的每个 query 的参考点,模型会学习其周围的 M 个采样偏移,并将这些偏移点投影到不同的 2D 视图特征中。
接下来,3D对象查询根据上述的2D参考点P2d,与F 中的多尺度采样特征进行交互。通过这种方式,来自不同视觉和尺度的多样特征通过考虑它们的相对重要性聚合到3D查询中。
Range-modulated 3D Denoising
不同距离的 3D query 具有不同的回归难度,这不同于现有的 2D Denoising 方法(如 DN-DETR, 通常同等对待的2D query)。难度差异来自于 query 匹配密度和误差传播。一方面,与远处物体相对应的 query 匹配度低于近处物体。另一方面,在 3D adaptive query 中引入二维先验时,2D 物体框的微小误差会被放大,更不用说这种影响会随着物体距离的增加而增大。因此,GT 框附近的一些 query 可被视为 positive query,而其他有明显偏差则应被视为 negative query。本文提出一种 3D Denoising 方法,旨在优化那些正样本,并直接舍弃负样本。
作者通过同时添加正样本和负样本组来构建基于 GT 的嘈杂查询。对于这两种类型,都会根据物体的位置和大小应用随机噪声,以促进远距离感知中的去噪学习。具体来说,正样本是在3D框内的随机点,而负样本则在GT上施加更大的偏移,偏移范围随着物体的距离变化。这种方法可以在训练过程中模拟有噪声的候选正样本和误报样本;
experiments
Far3D 在 150m 感知范围的 Argoverse 2 上取得了最高的性能。并且模型 scale up 之后,可以达到几个 Lidar-based 方法的性能,展现了纯视觉方法的潜力。
为了验证泛化性能,作者也在 nuScenes 数据集上做了实验,表明其在验证集和测试集上都达到 SoTA 性能。
就是看的远,好好好!
【完结】