中山大学GaussianFusion:首个将高斯表示引入端到端自动驾驶多传感器融合的新框架
摘要
近年来由于端到端自动驾驶极大简化了原有传统自动驾驶模块化的流程,吸引了来自工业界和学术界的广泛关注。然而,现有的端到端智驾算法通常采用单一传感器,使其在处理复杂多样和具有挑战性的驾驶场景中受到了限制。而多传感器融合可以很好的解决这一类问题,来自摄像头、激光雷达和雷达等不同传感器的互补信息相互集成,增强了感知的可靠性,并为学习稳健的驾驶策略提供了更丰富的输入。
©️【深蓝AI】编译
论文标题:Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving
论文作者:Shuai Liu, Quanmin Liang, Zefeng Li, Boyang Li, Kai Huang
论文链接:https://arxiv.org/pdf/2506.00034
原文链接:中山大学GaussianFusion:首个将高斯表示引入端到端自动驾驶多传感器融合的新框架
1、介绍
现有的多传感器融合方法可以分成如图1(a)和(b)的两种类型。(a)采用的是扁平化融合方法,通常将传感器特征通过注意力机制压缩到共享的潜在空间。这类方法具备很好的灵活性,并且不依赖传感器的几何校准。但由于缺乏明确的三维空间表示,限制了它们的可解释性,使其在需要精确空间推理的场景中效果不佳。
(b)采用的是将多模态特征投射到一个通用的BEV坐标系中,利用几何先验来对齐来自不同传感器的数据。这种融合方式有助于结构化的空间理解,并提升下游感知任务的性能。但由于BEV表征的密集特性,基于BEV融合的方法会产生较大的计算和内存开销。
图1:不同传感器融合策略示意图
近年来,3D高斯因其物理可解释性和固有的稀疏性,在三维场景的表示和重建领域备受关注。然而,在这种背景下应用高斯表示会带来一些挑战。首先,由于现有的端到端驾驶数据集缺乏细粒度的三维场景标注,因此难以有效地监督高斯参数。其次,现有方法主要侧重于三维场景表示,其在运动规划任务中的适用性尚未得到充分探索。第三,高效利用高斯表示进行精确的轨迹生成需要精心的架构设计。
针对上述提到的相关问题,本文提出了一个基于高斯的多传感器融合的算法框架,用于实现端到端的自动驾驶,称之为GaussianFusion。在NAVSIM和Bench2Drive数据集上的实验结果表明,本文提出的算法模型均实现了最佳的性能。
本文创新点:
● 本文提出首个将高斯表示引入端到端自动驾驶的多传感器融合领域,并提出了一种针对以规划为中心的任务的双分支融合流程;
● 本文设计了一个专门适用于高斯表示的级联规划头,它通过分层高斯查询迭代地细化轨迹;
● 本文在开环NAVSIM和闭环Bench2Drive数据集上的广泛评估证明了 GaussianFusion 的卓越性能和鲁棒性。
2、算法模型与实现细节
本文提出的GaussianFusion算法模型的整体框架如图2所示。可以看出,GaussianFusion包括Gaussian initialization、Gaussian encoder以及Gaussian decoder三个模块。
图2:GaussianFusion算法模型的整体网络结构图
Gaussian Initialization
本文考虑到自动驾驶汽车主要在平面上运行,二维高斯足以模拟交通场景。具体来说,本文随机初始化了一组2D高斯集合。每个高斯函数都具有物理属性和隐藏特征。其中物理属性包括均值、尺度、旋转角度以及语义结果。隐藏特征包括显示和隐式的特征。
Gaussian Encoder
为了学习有意义的高斯表示,本文首先利用两个独立的主干网络从图像和激光雷达点云中提取多尺度特征。然后,这些特征被用于迭代细化高斯的物理属性和隐藏特征。每次迭代都包含一个点交叉注意力模块、图像交叉注意力模块、高斯自注意力模块和一个细化模块。
点交叉注意力模块
该模块用于从点特征中提取信息。对于每一个高斯,本文生成了一组查询点,查询集包含固定点和可学习点:固定查询基于其协方差矩阵分布在每个高斯分布周围,而可学习查询则被限制在高斯分布的内部。给定多尺度的点特征,应用可变形注意力来聚合这些特征的信息,并更新高斯的显式特征。
对于隐式特征,本文使用交叉注意力与最后一个尺度点特征建立交互。
图像交叉注意力
为了整合来自多视角图像的视觉信息,本文采用了图像交叉注意力模块。与点交叉注意力模块类似,图像交叉注意模块为每个高斯函数生成固定和可学习的查询点。然而,这些查询还额外加入了高度信息,以便投影到图像平面。具体而言,给定多尺度的图像特征,高斯的显式和隐式特征计算如下。
高斯精修模块
在聚合了多模态特征的信息后,本文采用了两个独立的自注意力层来构建所有高斯之间的交互,一个用于显式特征,另一个用于隐式特征。
然后,本文采用多层感知机,根据据高斯分布的显式特征,对物理属性进行细化:
Gaussian Decoder
为了有效地调节二维高斯分布,本文设计了一个高斯解码器,它包含两个部分:地图构建和级联规划。地图构建模块显式地重建交通场景,级联规划模块以级联的方式生成轨迹预测,其中每个后续输出都基于前一个输出进行细化。
具体而言,在级联规划任务中,采用基于锚点的规划策略,根据数据集中观察到的轨迹分布构建锚点轨迹词汇表,然后基于Gaussian Encoder模块输出的高斯结果,以级联的形式对锚点轨迹进行修正。
3、实验
本文在NAVSIM和Bench2Drive数据集上进行了实验验证,相关的实验结果分别如图3和图4所示。
图3:各类算法模型在NAVISM上的实验结果
图4:各类算法模型在Bench2Drive上的实验结果
通过在开环和闭环数据集上的实验结果对比可以看出,本文提出的GaussianFusion算法模型均实现了最佳的表现结果,实现了SOTA的表现性能。其中,GaussianFusion算法模型在NAVSIM数据集上实现了85.0的EPDMS,在Bench2Drive数据集上实现了79.4的DS指标。
此外,本文还进行了消融实验来验证提出各个模块的有效性,如图5所示。
图5:消融实验结果汇总
通过消融实验结果可以看出,本文提出的各个模块均实现了稳定涨点,联合使用实现了最佳的性能表现。
为了更加直观的展示GaussianFusion算法模型的表现,本文也对相应的实验结果进行了可视化,如图6所示。
图6:预测结果和真值可视化结果
可视化结果也表明了高斯表示的优势,它提供了一种比传统密集BEV特征图更紧凑、适应性更强的替代方案。
结论
本文提出了一种基于高斯分布的多传感器融合框架GaussianFusion,用于端到端自动驾驶。在NAVSIM和Bench2Drive基准测试集上的实验表明,GaussianFusion能够显著提升规划性能,并且效率极高。这些结果凸显了高斯表示在端到端自动驾驶系统中实现高效且可解释的传感器融合的潜力。