当前位置：首页 > news >正文

ICML 2025|图像如何与激光雷达对齐并互补？迈向协调的多模态3D全景分割

news 2025/9/20 6:26:09

论文信息

题目：How Do Images Align and Complement LiDAR? Towards a Harmonized Multi-modal 3D Panoptic Segmentation

图像如何与激光雷达对齐并互补？迈向协调的多模态3D全景分割

作者：Yining Pan、Qiongjie Cui、Xulei Yang、Na Zhao

源码：https://github.com/IMPL-Lab/IAL.git

论文创新点

提出新型框架：论文提出**Image-Assists-LiDAR (IAL)**这一基于Transformer的新型多模态框架，用于多模态3D全景分割，摒弃了以往方法中繁琐的后处理步骤。
设计模态同步增强策略：设计出PieAug这种多模态增强技术，该技术不仅解决了数据增强时模态不同步的问题，还对现有的激光雷达增强方法进行了通用化表述。
设计特征融合与查询生成模块：设计**几何引导令牌融合（GTF）和基于先验的查询生成（PQG）**模块，能有效地将图像和激光雷达特征融合为Transformer解码器所需的令牌和查询。

摘要

基于激光雷达的3D全景分割常常受限于激光雷达传感器数据固有的稀疏性，这使得准确识别远距离或小物体颇具挑战。最近，一些研究试图通过将激光雷达输入与相机图像相结合来克服这一挑战，利用后者提供的丰富且密集的纹理信息。尽管这些方法已取得有前景的成果，但它们仍面临诸如数据增强过程中的不对齐以及对后处理步骤的依赖等挑战。为解决这些问题，作者提出了Image - Assists - LiDAR（IAL），这是一种新颖的多模态3D全景分割框架。在IAL中，作者首先引入一种模态同步的数据增强策略PieAug，从一开始就确保激光雷达和图像输入之间的对齐。接下来，采用一个Transformer解码器直接预测全景分割结果。为了有效地将激光雷达和图像特征融合为解码器的标记（token），作者设计了一个几何引导的标记融合（GTF）模块。此外，作者通过基于先验的查询生成（PQG）模块，利用每种模态的互补优势作为查询初始化的先验知识，增强解码器生成准确实例掩码的能力。与之前的多模态3D全景分割方法相比，作者的IAL框架在两个广泛使用的基准测试中取得了最先进的性能。

关键词

多模态；3D全景分割；数据增强；Transformer

一、引言

3D全景分割同时分配语义标签并识别不同的实例，有效地将3D语义（Zhao等人，2021年；Xu等人，2023b）和实例（Li和Zhao，2024年）分割统一起来，以提供对场景的整体理解。这项任务对于现实世界的应用，如动态目标跟踪（Yang等人，2023年）和自动驾驶（Hong等人，2021年；Cao等人，2024年）尤为关键。激光雷达是感知3D世界不可或缺的传感器，其激光雷达点云通常作为3D全景分割的唯一输入（Razani等人，2021年；Zhou等人，2021年；Li等人，2022a）。然而，由于其径向发射模式，激光雷达在检测小物体或远距离物体时存在固有限制，这导致沿每条激光射线的返回数据稀疏（Li等人，2022b）。因此，小的或位于远处的物体可能无法获得足够的信息。相比之下，相机图像提供了更密集和更详细的表示，有效地弥补了激光雷达数据的稀疏性，特别是在这些具有挑战性的场景中。

这种互补性促使人们使用多模态信息来增强全景分割。最近，LCPS（Zhang等人，2023年）和Panoptic - FusionNet（Song等人，2024年）开创了用于多模态3D全景分割的激光雷达与图像融合方法。然而，这些方法仅在激光雷达一侧进行增强，导致两种模态之间的不对齐。这种不对齐阻碍了两种模态信息的有效整合，使得模型主要依赖激光雷达数据，而不是充分利用激光雷达和图像数据。此外，LCPS和Panoptic - FusionNet中的预测头并不直接预测3D全景分割结果。相反，它们使用一种后处理策略，即在语义分割后对实例进行聚类（Zhou等人，2021年）。这种策略存在两个问题：1）后处理步骤效率低下，并且依赖初步结果限制了分割的有效性；2）它们基于卷积的预测头依赖局部上下文，这对于全景分割可能不是最优的，因为全景分割需要全局上下文才能进行准确预测。

为了解决第一个限制，作者提出了一种模态同步增强策略——PieAug。PieAug确保多视图图像的增强与其对应的激光雷达对的增强同步，从而实现对齐良好且丰富的激光雷达和图像输入。值得注意的是，PieAug是一种为户外分割任务设计的通用多模态数据增强策略。其针对激光雷达的增强可以看作是现有点云增强技术的推广，例如实例增强（Zhou等人，2021年）、PolarMix（Xiao等人，2022年）、LaserMix（Kong等人，2023b）。为了克服后处理的限制，受Transformer在3D全景分割（Xiao等人，2025年）和多模态3D目标检测（Bai等人，2022年；Yan等人，2023年）中取得成功的启发，作者提出采用Transformer解码器进行多模态3D全景分割。通过利用全局上下文并直接预测类别标签和掩码输出，Transformer解码器消除了与后处理相关的低效率和限制。

尽管采用Transformer解码器前景光明，但它也带来了新的挑战，特别是在设计有效的查询和标记作为输入方面。为了克服这些挑战，作者引入了几何引导的标记融合（GTF）模块和基于先验的查询生成（PQG）模块。结合PieAug策略，这些组件构成了作者提出的解决方案：一种新颖的基于Image - Assist - LiDAR Transformer的框架，名为IAL，用于自动驾驶场景中的多模态3D全景分割。

GTF模块将稀疏的圆柱形激光雷达特征与紧凑的网格状图像特征相结合，以创建输入标记。具体来说，作者采用Cylinder3D（Zhu等人，2020年）来提取激光雷达特征，并使用原始激光雷达点作为几何引导，为每个圆柱形体素定位相应的图像块。此外，作者设计了一种尺度感知位置嵌入，对圆柱体素的位置及其感受野进行编码，促进图像块和圆柱体素的融合。这种方法在增强特征融合的同时，减轻了由于圆柱体素形状变化而导致的投影误差。

作者的PQG模块利用来自激光雷达和图像输入的先验知识，这些知识为目标感知提供了互补的优势，以改进查询初始化。具体来说，作者生成两组实例查询——几何先验和纹理先验实例查询——分别来自激光雷达和图像模态。几何先验查询利用激光雷达的几何特征，这些特征非常适合检测附近或具有丰富几何信息的大物体。相比之下，纹理先验查询通过应用诸如Grounding - DINO（Liu等人，2023a）和SAM（Kirillov等人，2023）等最先进的检测和分割模型来利用图像，以更好地识别远距离和小物体。为了处理激光雷达和图像都无法提供可靠实例查询的具有挑战性的场景，作者引入一组可学习参数作为无先验实例查询。因此，这三组实例查询与一组语义查询相结合，输入到Transformer解码器中，以预测实例掩码和语义标签。

作者的贡献可以总结为：1）作者提出IAL，这是一种新颖的基于Transformer的多模态框架，用于多模态3D全景分割，消除了先前方法所需的繁琐后处理步骤。2）作者提出PieAug，这是一种多模态增强技术，不仅解决了不同步问题，而且作为现有激光雷达增强方法的通用公式。3）作者设计了GTF和PQG模块，它们可以有效地将图像和激光雷达特征融合为Transformer解码器的标记和查询。4）作者的IAL在户外全景分割中取得了最先进的性能，在nuScenes和SemanticKITTI基准测试中，PQ分别比先前方法提高了2.5%和4.1%。

三、方法

在多模态3D全景分割中，作者给定一个由 $N$ 个离散采样点组成的3D点云，表示为 $\{p_j \in \mathbb{R}^{1×4}\}_{j = 1}^{N}$ ，其中每个点 $p_j$ 包含其在欧几里得空间中的笛卡尔坐标及其反射强度。该点云与 $K$ 个视图图像相关联，表示为 $\{I_k \in \mathbb{R}^{H×W×3}\}_{k = 1}^{K}$ ， $H$ 和 $W$ 分别表示图像的高度和宽度。此任务的目标是有效地利用 $P$ 和 $I$ 来预测每个点的语义和实例标签。

框架概述

在本文中，作者引入了Image - Assist - LiDAR（IAL），这是一种新颖的基于Transformer的多模态3D全景分割框架，如图1所示。为了处理稀疏且不规则的激光雷达点云，作者首先应用圆柱体素化，根据点的极坐标将点转换为圆柱形的体素。结果，每个体素 $v_i$ 包含数量不同的点，并且体素形状沿径向轴有所不同。点云 $P$ 可以表示为 $V = \{v_i\}_{i = 1}^{M}$ ，其中 $M$ 是有效圆柱体素的数量。作者通过提出的PieAug策略（3.1节）应用模态同步增强，通过将每个体素与其对应的图像区域配对，并采用通用的增强算子以实现多样化效果，从而确保激光雷达和图像数据之间的一致性。

增强后的3D体素和图像随后由3D编码器 $E3D\mathcal{E}_{3D}$ 和2D编码器 $E2D\mathcal{E}_{2D}$ 处理，提取体素级特征 $F3D∈RM×D\mathbf{F}_{3D} \in \mathbb{R}^{M×D}$ 和图像特征 $F2D∈RK×H×W×D\mathbf{F}_{2D} \in \mathbb{R}^{K×H×W×D}$ ，其中 $D$ 是特征维度。3D编码器使用Cylinder3D（Zhu等人，2020年），它在3D全景分割（Xiao等人，2025年；Zhang等人，2023年）中具有很强的泛化能力，2D编码器是具有ResNet - 18骨干网络的SwiftNet（Oršić和Šegvić，2021年）。

接下来，作者使用 $F3D\mathbf{F}_{3D}$ 和 $F2D\mathbf{F}_{2D}$ 为Transformer解码器创建标记和查询，以实现跨模态交互。标记特征通过将体素特征与其对齐的图像对应特征连接起来形成，并由统一的尺度感知位置嵌入引导（3.2节）。同时，实例查询 $qth\mathbf{q}_{th}$ 使用模态补偿先验进行初始化（3.3节）。这些查询与语义查询 $qsm\mathbf{q}_{sm}$ 一起输入到Transformer解码器中，以预测实例掩码和语义标签。

模态同步增强

为了减轻模态不对齐并在数据增强过程中增强多样性，作者提出了PieAug。其关键思想是沿着高度、角度或半径轴提取灵活数量的圆柱体素——类似于从蛋糕上切下大小可变的扇形——并将其与另一个场景中的相应扇形交换，如图2所示。为了保持各模态之间的同步，每个3D“扇形”都与其对应的图像块配对，该图像块同时进行交换。

为了简化，作者说明了从一个相机视图为单个体素找到相应图像块的过程。这可以很容易地扩展到具有多个图像视图的扇形区域。给定一个包含 $N_i$ 个点的体素，表示为 $v_i = \{p_j\}_{i}^{N_i}$ ，其中 $∑i=1MNi=N\sum_{i = 1}^{M} N_i = N$ ，作者首先使用以下变换将激光雷达点 $p_j$ 从3D坐标系投影到其在图像平面上的相应2D坐标：
$π(pj)=K×T×[pj,1,pj,2,pj,3,1]⊤\pi(p_j) = K × T × [p_{j,1}, p_{j,2}, p_{j,3}, 1]^{\top}$
其中 $\in \mathbb{R}^{3×3}$ 是相机内参矩阵， $\in \mathbb{R}^{4×4}$ 是外参变换矩阵。接下来，作者定义 $g_i$ 为包围所有投影点 $π(pj)\pi(p_j)$ 的边界矩形。这确保每个体素对应于图像中的特定区域，表示为 $⟨vi,gi⟩\langle v_i, g_i \rangle$ ：
$gi=B({π(pj)∣pj∈vi})g_i = \mathcal{B}(\{\pi(p_j) | p_j \in v_i\})$
这里 $B(⋅)\mathcal{B}(\cdot)$ 是一个操作符，用于拟合包围一组像素的边界矩形。

在增强过程中，作者使用一个3D二进制掩码 $\in \{0, 1\}^{R×\Theta×Z}$ 来确定切扇形的大小和位置，其中 $R$ 、 $Θ\Theta$ 和 $Z$ 分别表示沿圆柱体素化的径向、角度和高度轴的分箱分辨率。每个体素被分配一个相应的掩码值 $\theta, z)$ ，其中 $\theta, z) = 1$ 表示该体素被来自新扫描的体素替换；否则，它与原始场景保持不变。因此，增强后的圆柱体 $V_{aug}$ 如下获得：
$Vaug=Vorg⊗(1−S)+Vnew⊗SV_{aug} = V_{org} \otimes (1 - S) + V_{new} \otimes S$
其中 $⊗\otimes$ 表示逐元素掩码操作，将体素值乘以相应的掩码。由于每个体素 $v_i$ 与图像区域 $g_i$ 对齐，作者使用相同的掩码 $S$ 并行应用图像增强。

实例粘贴

作者首先说明PieAug如何通过从新场景中选择与 $s$ 个采样实例对应的切扇形体素来实现实例级增强（复制和粘贴）。作者对每个实例应用诸如平移、旋转和缩放等变换。接下来，作者识别与 $s$ 个变换后的实例重叠的体素的索引为 $C$ 。然后构建掩码 $S$ 为：
$\sum_{r = 1, \theta = 1, z = 1}^{R×\Theta×Z} \mathbb{1}[(r, \theta, z) \in C]$

场景交换

然后作者说明PieAug如何实现场景级增强，包括场景交换，这涉及沿着选定的轴（高度或角度）均匀分割体素并交替交换它们。作者通过选择沿径向轴以及高度或角度轴之一的所有体素，然后从剩余轴上自由选择一定数量的切片来实现这一点。例如，从角度轴选择 $b$ 个切片的掩码定义为：
$\theta, z) = \begin{cases} 1, & \text{if } \theta \in \mathcal{O} \\ 0, & \text{otherwise} \end{cases}$
这里， $O\mathcal{O}$ 表示与选定的 $b$ 个角度切片对应的索引集。类似的掩码策略可应用于高度切片。

备注

通过上述实例级和场景级增强能力，PieAug概括了大多数现有的基于激光雷达的增强技术。例如：1）Panoptic - PolarNet：通过基于语义标签采样实例并应用使用平移和XY平面旋转的变换来执行实例级增强。2）PolarMix（实例分支）：通过基于标签选择实例并通过沿Z轴多次旋转复制的实例来应用变换来执行实例级增强。3）PolarMix（场景分支）：通过选择沿方位角的一半切片来执行场景级增强。4）LaserMix：通过选择不同倾斜角度的切片来执行场景级增强。因此，PieAug通过使用不同的体素索引执行多次增强轮次，在组合实例级和场景级增强方面提供了更大的灵活性。此外，由于对两种模态应用了同步变换，PieAug确保了对齐良好的激光雷达和图像增强。

几何引导的标记融合

由于圆柱化体素化导致体素大小不同（距离中心原点较远的区域体素较大），这给生成多模态标记带来了两个关键挑战：1）如何将图像特征与激光雷达特征对齐，以及2）如何有效融合。为了解决这些问题，作者提出了几何引导的标记融合（GTF），如图3所示，它利用激光雷达丰富的几何信息来指导对齐并实现有效融合。

具体来说，作者通过将体素 $v_i$ 内的所有物理点投影到图像平面上，并对其相应的图像特征进行平均以创建聚合表示，从而在体素级别对齐特征：
$F~2Di=1Ni∑jF2D(π(pj))\widetilde{\mathbf{F}}_{2D}^i = \frac{1}{N_i} \sum_{j} \mathbf{F}_{2D}(\pi(p_j))$
作者将配对的体素级激光雷达特征 $F3Di\mathbf{F}_{3D}^i$ 和图像特征 $F~2Di\widetilde{\mathbf{F}}_{2D}^i$ 称为第 $i$ 个多模态标记的内容。值得注意的是，通过投影体素内的所有物理点来聚合图像特征可保留特征的有效性。如图3（a）所示，仅使用体素质心可能会导致不对齐，因为投影位置可能无法准确对应相关的图像区域。

位置嵌入（PE）已被证明在对齐来自不同模态的特征方面是有效的（Yan等人，2023年）。然而，由于圆柱体素大小不同，仅对体素质心进行编码是次优的，因为单个点可能不足以表示体素的感知场。即使使用物理点进行PE，捕获体素或其相应图像区域的完整感知场仍然不足，如图3（b）第二行中的红色区域所示。这种限制的出现是因为物理点仅提供了激光雷达和图像域中物体的部分表示，特别是在距离较远时，激光雷达点分布稀疏。为了解决这个问题，作者为激光雷达和图像标记提出了统一的尺度感知位置嵌入（SPE）。

SPE通过将共享尺度嵌入合并到两种模态中，确保对感知场的一致感知，如图3（c）第三行所示。

具体来说，如图3（c）所示，作者引入一个极端点集，表示为 $v^i={p^j}j=18\hat{v}_i = \{\hat{p}_j\}_{j = 1}^{8}$ ，由每个圆柱体素的八个角组成，以表示其尺度。在激光雷达空间中，这些极端点定义了场景的空间划分。在图像空间中，它们勾勒出潜在的感知场区域，特别是在激光雷达点稀疏的区域，允许更自适应的感知范围。在SPE中，每个圆柱体素嵌入其尺度和质心位置：
$si=ψ(Avg(v^i))+ϕ(∥v^i−Avg(v^i)∥2)s_i = \psi(\text{Avg}(\hat{v}_i)) + \phi(\|\hat{v}_i - \text{Avg}(\hat{v}_i)\|_2)$
其中 $Avg(⋅)\text{Avg}(\cdot)$ 表示平均方法， $∥⋅∥\|\cdot\|$ 是笛卡尔空间中的L2范数操作。 $ψ\psi$ 表示混合参数化位置编码函数（Xiao等人，2025年），它在笛卡尔和极坐标空间中嵌入质心位置。 $ϕ\phi$ 是一个多层感知器（MLP），将尺度特征投影到与质心嵌入相同的维度。通过SPE，第 $i$ 个圆柱体素的最终融合多模态标记 $Ffusei\mathbf{F}_{fuse}^i$ 通过以下方式获得：
$Ffusei=Cat[(F3Di⊕si),(F~2Di⊕si)]\mathbf{F}_{fuse}^i = \text{Cat}[(\mathbf{F}_{3D}^i \oplus s_i), (\widetilde{\mathbf{F}}_{2D}^i \oplus s_i)]$

基于先验的查询生成

先前的工作，如P3Former（Xiao等人，2025年），通过一组可学习参数初始化查询。然而，这样的查询往往优先考虑较容易的样本，而忽略更具挑战性的样本。此外，初步结果已经验证，准确的位置嵌入显著增强了模型定位物体的能力。如表1所示，对“thing”类应用真实中心位置导致总体PQ提高6.2%，“thing”类的PQ专门提高10.7%。即使在位置上添加噪声，这种改进仍然显著。

受此观察的启发，作者提出基于先验的查询生成（PQG）模块，明确利用图像域的纹理特征和激光雷达域的几何信息作为先验知识，为实例查询生成有充分信息的初始化。具体来说，作者设计了三组查询：几何先验、纹理先验和无先验查询。

几何先验查询

潜在的几何先验实例是指那些激光雷达特征退化最小的实例，使得几何特征能够为准确的位置提示提供足够的信息。与图像中捕获的丰富纹理特征相比，激光雷达特征提供了更精确的位置预测。因此，作者通过预测中心热图并根据置信度分数和范围半径阈值执行非极大值抑制（NMS）采样，为几何先验查询生成位置提示。具体来说，作者使用类似于（Yin等人，2021年；Bai等人，2022年）的结构在极坐标鸟瞰图（BEV）空间中预测类别无关的热图。对于每个选定的实例提议（通过其在中心热图中的坐标标识），作者通过对高度维度上的所有有效体素进行平均，将其提升到3D空间。

纹理先验查询

对于小物体或距离传感器较远的物体，几何信息通常变得不可靠，使得准确的位置预测变得困难。为了解决这个问题，作者使用图像的纹理信息来发现潜在的纹理先验实例。首先，作者使用预训练的图像分割模型Grounding - DINO和SAM（Liu等人，2023a；Kirillov等人，2023）提取掩码提议。然后，作者将每个2D掩码提升到3D视锥体中，并收集落入其中的所有3D点。为了减轻由于深度维度上的重叠而产生的噪声，作者使用无监督的DBSCAN（Ester等人，1996年）算法将这些点聚类为几个组。最后，这些聚类的质心作为纹理先验实例的位置提示。

给定来自两种模态的位置提示，作者应用最远点采样（FPS）获得固定数量 $l_{pr}$ 的位置提示。值得注意的是，对于激光雷达和图像都容易识别的大物体，全局采样提供了整体视图并减少了冗余的候选提议。与用于多模态标记的位置嵌入类似，作者应用SPE来嵌入查询位置和尺度特征。然后，作者通过索引相应的体素特征 $Ffuse\mathbf{F}_{fuse}$ 提取查询内容，最后将SPE添加到该内容中以形成最终的查询表示。

无先验查询

作者假设没有高级先验的实例表现出特定的特征表示范式，使得它们能够通过一组可学习参数被识别。作者将无先验查询的数量设置为 $l_{lt}$ 。这种隐式范式学习使模型能够在较小的候选池中搜索并有效地识别潜在实例。

所有几何、纹理和无先验查询都连接起来并输入到Transformer解码器中用于“thing”类预测，即3D实例分割。语义查询按照P3Former中的方法进行初始化，并应用辅助语义监督。这些语义查询用于预测分割结果。作者遵循P3Former中的过程将实例和语义预测组合成最终的全景分割。

四、实验结果

实验设置

数据集：nuScenes（Caesar等人，2020年；Fong等人，2022年）是一个大规模的多模态数据集，专为自动驾驶设计，包含来自32线激光雷达、5个雷达和6个RGB相机的数据。它包括40,157帧户外场景，其中34,149帧用于训练和验证，其余保留用于测试。全景注释涵盖10个“thing”类、6个“stuff”类和1个噪声标签类。SemanticKITTI（Behley等人，2019年；2021年）是一个源自KITTI视觉基准（Geiger等人，2012年）的户外数据集。它包括来自64线激光雷达传感器和两个前视相机的数据，包括8个“thing”类和11个“stuff”类，由19,130帧用于训练、4,071帧用于验证和20,351帧用于测试组成。

评估指标：与标准工作一致（Kirillov等人，2018年；Zhang等人，2023年；Xiao等人，2025年），选择全景质量（PQ）作为主要指标。PQ定义为分割质量（SQ）和识别质量（RQ）的乘积：
$\frac{\sum_{} \text{TP} \ \text{IoU}}{|\text{TP}|} \underbrace{\times \frac{|\text{TP}|}{|\text{TP}| + \frac{1}{2}|\text{FP}| + \frac{1}{2}|\text{FN}|}}_{\text{RQ}}$
其中IoU表示交并比，TP表示真阳性，其他类似。这些指标可以进一步扩展到“thing”和“stuff”类，表示为 $PQ_{th}$ 、 $PQ_{st}$ 、 $RQ_{th}$ 、 $RQ_{st}$ 、 $SQ_{th}$ 和 $SQ_{st}$ 。作者还报告 $PQ†PQ^{\dagger}$ （Porzi等人，2019年），它在“stuff”类中用mIoU替换PQ。

实现细节：作者遵循标准做法（Zhou等人，2021年；Li等人，2022a；Xiao等人，2025年），通过将3D空间离散化为大小为 $[480 \times 360 \times 32]$ 的圆柱体素来表示点云。激光雷达分支基于P3former的架构构建。对于nuScenes，极坐标范围定义为 $2\pi] × [−5m, 3m]$ ，而对于SemanticKITTI，高度范围调整为 $[- 4 m, 2 m]$ 。所有图像调整为 $640 \times 360$ 。对于增强，作者采用以下策略：实例粘贴和场景交换（沿高度和角度轴分割场景，每次分割的数量从 $[3, 4, 5]$ 中随机选择）。作者将这三种增强策略的应用比例分别设置为 $0.4 : 0.05 : 0.05$ 。此外，作者执行基本变换，包括随机旋转、翻转和缩放。作者将基于先验和无先验实例查询的数量设置为 $l_{pr} = l_{lt} = 128$ 。作者使用AdamW（Kingma和Ba，2014年）作为优化器，默认权重衰减为 $0.01$ 。整个模型使用4个NVIDIA A40 GPU从零开始训练，批量大小为2。对于nuScenes，训练跨越80个epoch，对于SemanticKITTI，训练跨越36个epoch。初始学习率设置为 $0.0008$ ，在nuScenes的epoch $[60, 75]$ 和SemanticKITTI的epoch $[30, 32]$ 时减半。以下各节中列出的所有模型结果均未采用任何测试时增强（TTA）方法。

基准测试结果

nuScenes：作者在表2和表3中展示了nuScenes验证集和测试集上激光雷达全景分割性能的全面比较结果。由于多模态方法数量有限，目前只有LCPS（Zhang等人，2023年）和Panoptic - FusionNet（Song等人，2024年），作者也纳入了仅使用激光雷达的方法进行比较。值得注意的是，作者的方法IAL在验证集的所有指标上都取得了最佳性能，在测试集的大多数指标上排名第一或第二。具体来说，如表2所示，IAL在验证集上的PQ比LCPS和Panoptic - FusionNet分别显著高出2.5%和5.1%。这种改进归因于在识别（RQ分别比前两项工作高出1.2%和2.5%）和分割（SQ分别比它们高出1.7%和3.7%）方面的卓越性能。此外，作者的模型在“thing”和“stuff”类上都表现出卓越性能，与最新工作Panoptic - FusionNet相比，在指标上分别提高了7.8%和1.1%。与仅使用激光雷达的基线（采用与P3Former相同的增强策略）相比，IAL实现了5.3%的改进，主要得益于“thing”类提高了7.5%，这证明了图像辅助在检测和识别物体方面的有效性。在表3中，IAL也表现出卓越性能，在nuScenes排行榜的大多数指标上获得最高分。这些出色的结果突出了作者的模块在模态对齐和补偿方面的有效性。

SemanticKITTI：由于仅使用两个前视相机，SemanticKITTI带来了重大挑战，限制了可用于支持激光雷达的图像特征的可用性。如表4所示，尽管存在这些限制，作者的IAL与最先进的多模态基线LCPS相比，PQ提高了4.1%，证明了即使在有限的图像监督下，作者的方法也具有稳健性。

消融研究

为了验证作者提出的组件的有效性，作者在表5中对整体提议框架进行了全面的消融研究，并在表6中对每个单独的模块进行了详细分析。所有实验均在nuScenes验证集上使用相同的超参数进行公平比较。

如表5所示，与仅使用基本点云变换的基线（第1行）相比，PieAug使PQ提高了2.7%，这得益于更好的输入对齐和丰富的场景上下文。在此基础上，GTF进一步将PQ提高了2.7%，RQ提高了2.1%，表明统一的尺度嵌入和准确的投影增强了多模态表示。最后，纳入PQG模块使PQ额外提高了1.2%，验证了作者的假设，即使用模态先验初始化查询比仅使用可学习参数能导致更精确的物体预测。

PQG模块的有效性在表6中得到验证。第1 - 3行显示了可比的性能，这表明即使存在单模态先验，纯粹可学习的查询也倾向于过度拟合容易或冗余的样本。第4行显示略有下降，可能是由于基于先验的查询数量过多，超过了真实实例的数量，导致更多的误报。相比之下，作者的设计（第5行）将强几何和纹理先验分配给置信区域，同时为更难、低先验的情况保留可学习查询。这种平衡分配提高了模型处理容易和困难样本的能力，从而带来卓越的整体性能。

增强方法比较

如表7所示，作者将PieAug与仅使用激光雷达的增强方法进行比较，包括PolarMix（实例粘贴和场景混合）和LaserMix（倾斜角分割），PQ分别提高了2.0%和1.7%。即使仅使用激光雷达增强，PieAug也实现了卓越的性能，证明了其作为通用框架的有效性。

定性结果与讨论

作者在nuScenes验证集上进行了定性评估。如图4中的误差图所示，与LCPS相比，作者的方法显著减少了误报（红色点）和漏报（绿色点）。此外，IAL在检测远距离物体（黑色框中突出显示）和识别模糊类别（黄色框中）方面优于其激光雷达分支，这得益于图像数据的辅助。在图5中，作者将实例预测与GT、激光雷达分支和IAL以及相应的图像进行比较。IAL在以下方面展示了显著的性能改进：（1）在多个物体聚集在一起时区分它们（第1行和第2行）；（2）检测远距离物体（第3行）；（3）识别误报物体（第4行和第5行）。

五、结论

本文提出了IAL，这是一种多模态3D全景分割框架，通过PieAug（同步增强）、GTF（几何引导融合）和PQG（基于先验的查询）协调激光雷达和图像。IAL通过Transformer解码器直接预测全景结果，消除了后处理，并在nuScenes（PQ为82.3%）和SemanticKITTI（PQ为63.1%）上取得了最先进的性能。纹理先验查询增强了小/远距离物体的识别，而几何先验查询改善了大/近距离实例的定位。