当前位置：首页 > news >正文

51c自动驾驶~合集7

news 2025/7/17 9:32:18

自己的原文哦~ https://blog.51cto.com/whaosoft/11597451

#LION

刷爆Waymo&nuScenes等四大榜单！LION：全新基于Linear RNN的3D检测框架横空出世！

华中科技大学白翔团队，联合香港大学以及百度，提出了一种基于Linear RNN的全新3D检测框架LION，其性能在Waymo&nuScenes&Argoverse V2&ONCE大场景自动驾驶数据集上表现SOTA，且支持当前最主流的Linear RNN算子（RetNet, RWKV, Mamba, xLSTM, TTT）。

写在前面

Transformer在建立长距离关系模型时，其计算成本为输入特征序列长度呈现二次方的关系, 因此，在大规模3D点云感知任务（如3D物体检测）中的优势往往受到限制。相比之下，Linear RNN 的计算复杂度较低，适用于远距离建模。为了实现这一目标，我们提出了一个基于Linear Group RNN（即对grouped特征执行Linear RNN）的简单而有效的3D物体检测框架，称为 LION。与基于Transformer的方法相比，LION 的关键特性是允许在更大的group中进行充分的特征交互。然而，由于Linear Group RNN 在处理空间建模方面的局限性，在高度稀疏的点云中有效应用Linear Group RNN 进行3D物体检测并非易事。为了解决这个问题，我们只需引入3D空间特征描述器，并将其集成到Linear Group RNN算子中，以增强其空间特征，而不是盲目地增加体素特征不同扫描方式的次数。此外，为了进一步应对高稀疏点云中的挑战，我们提出了一种3D体素生成策略，利用Linear Group RNN 这一自回归模型的天然特性来稠密化前景特征。然后，通过大量的实验验证了所提出模块的有效性，以及验证了 LION框架在不同线性组 RNN 算子（包括 Mamba、RWKV 和 RetNet）上的通用性。此外，值得一提的是，我们的 LION-Mamba 在 Waymo、nuScenes、Argoverse V2 和 ONCE 大场景自动驾驶数据集上SOTA。最后，我们的方法在流行的小型 KITTI 数据集上，支持各种前沿的Linear RNN 算子（例如 RetNet、RWKV、Mamba、xLSTM 和 TTT），以便快速体验我们基于Linear Group RNN 的框架LION。

论文链接：https://arxiv.org/abs/2407.18232
项目链接：https://happinesslz.github.io/projects/LION/
代码链接：https://github.com/happinesslz/LION

亮

点

LION是一种通用的基于Linear RNN的3D检测框架，支持各种前沿的Linear RNN 算子（例如 RetNet、RWKV、Mamba、xLSTM 和 TTT）
LION在 Waymo、nuScenes、Argoverse V2 和 ONCE 大场景自动驾驶数据集上取得了SOTA的3D检测性能
目前LION中涉及的所有模型，均能够在24G显存的RTX 3090/4090显卡上进行训练，从而保证大多数研究机构或者高校能够训练我们的LION模型
LION在推理的时候，不再受限于训练时基于window划分所设置的group大小，适当地调整group的大小，对最终模型的性能影响很小

问

题背景

这篇论文的背景探讨了3D物体检测作为现代3D感知领域的核心技术，其在导航机器人和自动驾驶汽车等领域中具有广泛应用。近年来，基于Transformer的特征提取器在自然语言处理和二维视觉任务中取得了显著进展，通过灵活地建模长距离关系。为了将这一成功经验扩展到3D物体检测领域并应对高计算成本的挑战，研究人员提出了创新方法，如将点云划分为pillar并在局部2D窗口中进行pillar特征交互的窗口注意力机制（例如SST和SWFormer）。然而，现有方法由于计算资源限制，通常只能处理较小group的特征，无法充分发挥Transformer模型在长距离关系建模中的潜力。与此同时，长距离关系的建模对于在大规模数据集上实现3D感知任务的基础模型至关重要。在大语言模型（LLM）和二维视觉任务领域，一些具有线性计算复杂度的代表性线性RNN操作符如Mamba和RWKV已经展示出与Transformer相媲美的性能，尤其在处理长序列时表现出色。该论文旨在通过线性RNN在3D目标检测中以更低的计算成本处理更大的特征group，实现长距离的交互，不仅对于提升3D物体检测的性能至关重要，也对未来在复杂场景中实现自动驾驶和导航系统具有重要的实际意义。

Linear RNN

这篇论文探讨了线性循环神经网络在3D物体检测中的应用。最初，RNN被开发用于解决自然语言处理中的问题，如时间序列预测和语音识别，有效捕捉序列数据中的时间依赖关系。近年来，为了克服Transformer的二次计算复杂性，研究人员取得了显著进展，提出了时间并行化、数据依赖的线性RNN模型，如Mamba、RWKV、RetNet等。这些模型保持了线性的计算复杂度，同时具备高效的并行训练能力，并且在性能上能够与甚至超过Transformer模型。由于其可扩展性和高效性，线性RNN在不同领域的应用日益重要，包括视觉任务，已有研究证明其潜力。因此，本文旨在探索如何利用线性RNN有效地建模3D物体检测中的长距离关系。

方法介绍

LION的核心思想在于利用线性RNN来构建长距离建模的3D目标检测器，以避免将体素特征划分为小的组和Transformer在计算中的平方时间复杂度，来获得更好地检测性能。该论文首先提出了使用更大的group来进行体素划分，更好地适应了线性RNN的对于长序列建模的能力和线性复杂度的优势。其次，该论文为了解决3D目标检测中，在体素合并的过程中存在信息缺失的情况，提出了一种新的特征扩散点的方式。最后，为了可兼容很多高性能的线性RNN模型，该论文提出了一种全新的基于线性RNN的3D目标检测框架。

总体框架

该论文提出了基于线性RNN的模型框架，名为LION，用于在窗口化的框架中对分组特征执行线性RNN，可以将数千个体素（比之前的方法的数量多数十倍）进行特征交互。LION的流程如图所示，包括一个3D骨干网络、一个BEV骨干网络和一个检测头部，与大多数基于体素的3D检测器保持一致的pipeline。本文的贡献在于基于线性RNN设计的3D骨干网络。

图1 LION的整个pipeline

接下来将详细介绍该论文提出的3D骨干网络，包括用于长距离特征交互的N个LION模型块、增强稀疏点云特征表达的体素生成操作，以及逐步下采样特征高度的N个体素合并操作。

3D稀疏窗口划分

在该论文中，3D窗口划分是为了在LION模块中实现有效的特征交互而进行的预处理步骤。首先，我们将点云转换为包含L个体素的数据表示。接着，我们将这些体素划分为形状为的非重叠3D窗口，其中、和分别表示窗口沿X轴、Y轴和Z轴的长度、宽度和高度。然后，我们按照X轴和Y轴对体素进行排序，以便进行窗口划分。为了节省计算成本，我们采用了FlatFormer中的等大小分组方法，而不是SST中的经典等形状窗口分组方法。具体来说，我们将排序后的体素分成大小为K的等大小分组，而不是传统的等形状窗口分组方法。这种方法利用了线性组RNN操作符的线性计算复杂度，使我们能够使用更大的分组大小K，从而实现有效的长距离特征交互。

LION Block

LION Block是LION的核心组件，包括建模long-range relationship的LION层，用于捕捉局部3D空间信息的3D空间特征描述子，Voxel Merging 和 Voxel Expanding，如图所示。此外，LION Block是一个层次结构，可以更好地提取多尺度特征，以应对不同大小3D对象之间的差距。接下来，将介绍LION块的每个部分。

图2 LION Block的结构

LION Layer

LION Layer在LION块中应用，利用线性分组RNN操作符模拟组内特征之间的long-range relationship。具体来说，如图3（c）所示，LION Layer的结构包括两个线性分组RNN操作符。第一个操作符基于X轴窗口分区执行长程特征交互，第二个操作符则基于Y轴窗口分区提取长程特征信息。通过利用两个不同的窗口分区，LION层能够获得更充分的特征交互，生成更具有区分性的特征表示。

图3 LION Layer和3D空间特征描述子的结构

3D空间特征描述子

虽然线性 RNN 具有长程建模和低计算成本的优势，但不可忽视的是，当输入体素特征被扁平化为一维连续特征时，空间信息可能会丢失。例如，如下图所示，在3D空间中有两个相邻的特征（即索引为 01 和 34）。然而，当它们被扁平化为一维序列特征后，它们在一维空间中的距离却非常远。我们将这种现象视为3D空间信息的丢失。为了解决这个问题，一种可行的方法是增加体素特征的扫描顺序，然而，扫描顺序的设计过于手工。此外，随着扫描顺序的增加，相应的计算成本也会大大增加。因此，在大规模稀疏3D点云中不适合采用这种方式。如图3（d）, LION用一个子流形卷积、一个LayerNorm和一个GELU组成3D spatial feature descriptor来增强局部空间信息。同时LION将这个放在了体素合并前用来减少体素合并中的信息缺失。

Voxel Merging 和 Voxel Expanding

LION为了获得多尺度特征，使用了一个上采样下采样的层次化结构。LION分别采用Voxel merging 和 Voxel expanding 用来下采样和上采样。Voxel Merging中计算并保留Voxel合并的索引，在voxel expanding中用之前保留的索引逆变换回去。

图4 Voxel Merging 和 Voxel Expanding操作示意图

Voxel Generation

由于在体素合并的时候存在信息损失，LION利用了线性RNN的自回归能力进行Voxel 生成来解决这个问题。首先是确定需要进行特征生成的区域。通常进行的特征扩散是在BEV特征下对于前景进行特征扩散，但是这些方法对于体素特征来说并没有那么合适。LION注意到3D特征在通道维度上的高响应区域大都是前景区域，因此LION先计算得到的体素特征在通道维度上的平均值，然后通过选择其中的Top K作为待扩散区域。尽管有些方法采用K-NN等方法来生成扩散的特征，但是由于冗余的特征和有限的感受野，这样的方法并不是最好的。LION借助线性RNN的自回归能力，使得模型能够自适应地生成扩散的特征。针对于扩散点，选择水平方向上四个不同方向的偏移进行扩散。针对于扩散的点，直接将特征赋零。这些扩散的体素特征可以通过后续的线性RNN进行有效生成。

图5 LION中Voxel Generation的过程

实验效果

该论文在多个基于点云的自动驾驶数据集（Waymo、nuScenes、ArgoverseV2和ONCE）上均取得了SOTA的结果。

Waymo数据集:

nuScenes数据集:

Argoverse V2数据集：

ONCE数据集：

KITTI数据集：

我们的方法在流行的小型 KITTI 数据集上，支持各种前沿的Linear RNN 算子（例如 RetNet、RWKV、Mamba、xLSTM 和 TTT），以便快速体验我们基于Linear Group RNN 的框架LION

消融实验

在Table 5中，通过对LION架构中的group大小，3D空间特征描述子，以及基于自会归的体素生成模块进行消融实验，实验结果发现三个组件都能带来一致的提升。其中,3D空间特征描述子以及采用大的group均能带来1个点以上的收益。

为了分析推理过程中窗口大小和分组大小的影响，我们在 WOD 100%训练数据上评估了 LION-Mamba 的相同训练模型在不同窗口大小和分组大小情况下的结果（即窗口大小={(13, 13, 32)、(13, 13, 16)、(13, 13, 8)和(13, 13, 4)}，分组大小={4096, 2048, 1024, 512}）。如Table 11 所示，令人惊讶的是，我们发现在推理过程中使用不同的窗口大小或分组大小仍然不会对性能产生显著影响。这表明 LION 可以降低对手工先验(如window的大小，group的数目)的强烈依赖，并具有良好的外推能力。

对于更多的消融实验，请参考LION原文论。

对特征扩散的可视化

该论文选取了不同的Block的体素特征进行而可视化，这个可视化说明了随着block的深度加深，前景区域相比背景区域的特征会更加稠密，更易于区分。

检测结果的可视化

和DSVT在BEV下的检测结果的可视化对比。

本文总结

本文利用线性RNN对于长序列建模的能力和线性时间复杂度的特点设计了新的检测框架，并设计了新的体素划分方式来发挥线性RNN可以长序列建模和线性时间复杂度的优势，同时兼容了不同的线性RNN算子，在多个自动驾驶3D目标检测数据集上都取得了SOTA的效果。

#UniTraj

可扩展车辆轨迹预测的统一框架

原标题：UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction

论文链接：https://arxiv.org/pdf/2403.15098

代码链接：https://github.com/vita-epfl/UniTraj

作者单位：EPFL Valeo.ai Sorbonne Université

论文思路：

车辆轨迹预测越来越依赖于数据驱动的解决方案，但它们在不同数据领域中的扩展能力以及更大数据集规模对其泛化能力的影响仍未得到充分探索。虽然可以通过使用多个数据集来研究这些问题，但由于数据格式、地图分辨率和语义标注类型等方面的差异，这一过程颇具挑战性。为了解决这些挑战，本文提出了UniTraj，一个综合框架，用于统一各种数据集、模型和评估标准，为车辆轨迹预测领域提供了新的机会。特别是，利用UniTraj，本文进行了广泛的实验，发现模型在转移到其他数据集时性能显著下降。然而，增加数据规模和多样性可以大幅提升性能，进而在nuScenes数据集上达到了新的最先进结果。本文提供了对数据集特征的见解，以解释这些发现。

主要贡献：

本文介绍了UniTraj，一个综合性的开源框架，用于车辆轨迹预测，集成了各种数据集、模型和评估方法。它为该领域的全面研究提供了一个统一的平台。
本文研究了模型在不同数据集和城市中的泛化能力，并提供了关于模型在何种数据集上获得更好泛化能力的见解。
本文探索了数据规模对模型性能的影响，利用目前可用的最大数据集集合，在nuScenes数据集上建立了一个新的最先进模型。
最后，本文对数据集进行了深入的比较分析，阐明了本文的实验发现。

论文设计：

预测周围车辆的轨迹对于确保自动驾驶系统的安全性和避免碰撞至关重要。随着深度学习的兴起，研究人员开始采用数据驱动的解决方案来应对这一预测任务。然而，尽管这些模型可以达到很高的准确性，它们却严重依赖于用于训练的特定数据域。

自动驾驶系统可能会遇到各种情况，例如不同的地理位置。这些不同的情况提出了数据域的变化，可能会显著影响预测模型的性能。因此，研究模型在不同域（如数据集和城市）中的性能表现至关重要。然而，尽管这一问题非常重要，模型在不同域中的泛化能力尚未得到充分研究。因此，本文的第一个研究问题（RQ1）是调查轨迹预测模型在转移到新域时的性能下降情况。

一个潜在的解决方案是通过扩大数据集的规模，以覆盖更广泛的驾驶场景，从而提高预测模型的泛化能力。尽管在扩展数据集规模方面有一定的趋势 [8,10,14,50]，但数据集规模对轨迹预测模型性能的影响仍未得到充分探索。因此，本文的第二个研究问题（RQ2）是研究增加数据集规模对预测模型性能的影响。

探索这两个研究问题需要利用多个轨迹预测数据集。首先，这些数据集提供了多样化的领域，允许对模型在不同领域中的泛化能力进行全面的考察（RQ1）。其次，结合这些数据集可以创建一个更大的数据集，从而探索数据扩展的渐近极限（RQ2）。然而，利用多个数据集时存在显著的挑战：

每个数据集都有独特的数据格式，这给研究人员使用多个数据集带来了实际困难。
每个数据集的收集和标注策略各不相同，包括半自动预标注和人工校正 [7,8,14]。这导致了多种不一致性，如分辨率、采样率和语义标注类型的差异。
由于数据集设置（例如预测时间跨度）和评估指标（例如WOMD中使用的mAP指标 [14] 和Argoverse 2中使用的brier-FDE指标 [50]）的不同，跨数据集比较模型性能并不简单。

简而言之，虽然每个数据集都为该领域的进步做出了贡献，但它们是独立开发的，没有考虑与现有数据集的协调。因此，许多轨迹预测研究使用单一数据集进行模型训练和评估 [2, 3, 5, 9, 13, 20, 22, 31, 37, 46]。

为了解决这些挑战，本文提出了“UniTraj”，一个综合性的车辆轨迹预测框架。UniTraj无缝集成并统一了多个数据源（包括nuScenes [7]、Argoverse 2 [50] 和 Waymo Open Motion Dataset - WOMD [14]）、模型（包括AutoBot [17]、MTR [46] 和 Wayformer [35]）以及评估方法。UniTraj不仅作为解决本文研究问题的方案，还为社区提供了一个全面且灵活的平台。

首先，它通过提出一个与各种数据集兼容的统一数据结构，设计为能轻松包含新的数据集。其次，UniTraj支持并简化了新方法的集成，提供了众多与轨迹预测任务相关的基本数据处理和损失函数。最后，UniTraj提供了统一的评估指标，以及多样且有见地的评估方法，例如分析长尾数据实例和不同数据样本集群的性能，以便更深入地理解模型行为。图1展示了该框架的概述。

本文使用UniTraj框架进行了广泛的实验，以阐明本文的两个研究问题。本文的研究发现，当模型在不同数据源之间转换时，性能会大幅下降，不同数据集引起的泛化能力也存在差异（RQ1）。本文还展示了通过扩大数据集的规模和多样性，可以在不进行任何架构修改的情况下显著提升模型性能，这使本文在nuScenes公共排行榜上排名第一。这是通过在框架内的所有现有数据集上训练模型实现的。这个统一的数据集是目前可以用来训练车辆轨迹预测模型的最大公共数据集，包括超过200万个样本、1337小时的数据和15个不同的城市。

最后，通过对数据集的深入分析，本文提供了对其特征的更全面理解。本文的分析表明，数据集的泛化能力不仅归因于其规模，还与其内在的多样性有关。本文相信，这个框架为轨迹预测领域开辟了新的机会，并且本文将发布这个框架以促进进一步的进展。

图1：UniTraj框架。该框架统一了各种数据集，形成了目前最大的车辆轨迹预测数据集。它还包括多个最先进的预测模型和各种评估策略，使其适用于轨迹预测实验。该框架能够研究多样的研究问题，包括（RQ1）轨迹预测模型在不同域中的泛化能力和（RQ2）数据规模对预测性能的影响。

表1：数据特征差异的总结。该表展示了每个数据集的特征以及这些特征的统一版本。大多数统一特征是灵活的，用户可以自行选择。

实验结果：

图2：数据集规模与模型性能之间的关系。随着组合数据集规模的增加（从总数据量的20%到100%），AutoBot的预测误差变化情况。whaosoft aiot http://143ai.com

图3：图(a)显示了轨迹类型的分布。它揭示了不同类型之间的不平衡，直线路径是数据集中最常见的轨迹类型。图(b)显示了轨迹的 Kalman difficulty 直方图。为了说明 Kalman difficulty ，本文叠加了三个随机示例。过去的轨迹、真实值和卡尔曼滤波预测分别用红色、蓝色和洋红色表示。图中显示了一个明显的趋势，即简单场景的数量显著高于复杂场景。特别是，WOMD在各类场景中的分布相对平衡。

总结：

总之，本文的研究探讨了推进车辆轨迹预测领域的两个关键研究问题。本文发现，模型在不同域中的泛化面临显著挑战（RQ1），在遇到新数据集或城市时表现出明显的性能下降。此外，本文的研究结果证实，更大且更多样化的数据集显著提升了模型性能和泛化能力（RQ2），强调了数据丰富性的重要性。除此之外，本文发布了UniTraj框架，作为一个多功能工具，为轨迹预测领域的探索开辟了新的机会。本文相信，这一框架将有助于显著推进轨迹预测领域的数据中心研究。

#AHMF

自动驾驶里程碑！决策力拉满AHMF：让车辆像人一样思考！

人类驾驶员主要依赖视觉信息来驾驶。他们视觉注意力的分布反映了经验丰富的驾驶员对当前交通场景的认知理解，特别是在具有碰撞风险的关键安全场景中。对于智能车辆而言，准确预测驾驶员的注意力至关重要，因为这有助于快速识别交通场景中的关键风险因素，并协助决策系统做出有效的避撞决策。

鉴于其重要的研究意义，已涌现出大量关于驾驶员注意力预测的研究。这些研究通常采用基本的编码器-解码器模型架构，以卷积神经网络（CNN）或Transformer作为核心组件。然而，当前注意力预测模型性能的提升主要归功于计算机视觉领域骨干网络的进步，却忽视了驾驶任务本身所需的认知机制分析。因此，这些模型尚未实现类似人类的驾驶员注意力预测。

在驾驶过程中，人类驾驶员必须实时处理复杂多变的交通信息，特别是在关键安全场景中。这一认知过程既涉及工作记忆也涉及长期记忆。工作记忆模块通过快速识别当前场景中的关键风险对象并评估其危险性，来迅速处理视觉信息。当潜在碰撞即将发生时，驾驶员会迅速从长期记忆中检索相关经验。这些过程共同帮助驾驶员形成情境意识，快速理解当前的交通状况，并根据积累的驾驶经验做出最优决策。

为了实现更人性化的驾驶员注意力预测，本文提出了一种自适应混合记忆融合（AHMF）模型，该模型明确地将工作记忆和长期记忆纳入驾驶员注意力预测中。此外，利用域适应技术，我们的模型在多个数据集上进行并行训练，有效地利用多样化的驾驶经验来丰富长期记忆。通过将场景中的特定危险刺激（由编码器作为工作记忆处理）与从长期记忆中检索的经验相结合，该模型可以做出最终的优化预测。我们在多个公共数据集上通过对比实验评估了我们的模型。结果表明，我们的模型在多个指标上均优于现有的最先进（SOTA）模型。

1. 论文信息

标题：AHMF: Adaptive Hybrid-Memory-Fusion Model for Driver Attention Prediction

作者：Dongyang Xu, Qingfan Wang, Ji Ma, Xiangyun Zeng, Lei Chen

机构：清华大学、北京大学、商汤

原文链接：https://arxiv.org/abs/2407.17442

摘要

准确的驾驶员注意力预测可以为智能车辆理解交通场景和做出明智的驾驶决策提供重要的参考。尽管现有的驾驶员注意力预测研究通过引入先进的显著性检测技术提高了性能，但它们忽视了从认知科学角度分析驾驶任务以实现类人预测的机会。在驾驶过程中，驾驶员的工作记忆和长期记忆分别在场景理解和经验检索中发挥着至关重要的作用。它们共同构成了情境意识，有助于驾驶员快速理解当前的交通状况，并根据过去的驾驶经验做出最佳决策。为了明确整合这两种记忆，本文提出了一种自适应混合记忆融合（AHMF）驾驶员注意力预测模型，以实现更类人的预测。具体而言，该模型首先对当前场景中的特定危险刺激信息进行编码，以形成工作记忆。然后，它自适应地从长期记忆中检索相似的情境经验，以进行最终预测。利用域适应技术，该模型在多个数据集上进行并行训练，从而丰富了长期记忆模块中积累的驾驶经验。与现有模型相比，我们的模型在多个公共数据集上的各项指标上均表现出显著的改进，证明了在驾驶员注意力预测中整合混合记忆的有效性。

3. 效果展示

4. 主要贡献

本文的贡献如下：

我们从认知科学的角度，以与驾驶员对交通场景的理解紧密一致的方式预测驾驶员的视觉注意力。具体来说，该模型首先对当前场景中的特定危险刺激进行编码以形成工作记忆，然后将工作记忆与长期记忆相结合以产生最终的场景编码。

利用域适应技术，我们在多个数据集上实现了并行训练，从而增强了长期记忆模块中信息的多样性，并形成了全面的“驾驶经验”知识库，显著提高了模型的泛化能力。

实验表明，我们的模型在多个公共数据集上的多个指标上均达到了最先进的预测性能。

5. 基本原理是啥？

我们提出了一种新颖的自适应混合记忆融合（AHMF）驾驶员注意力预测模型，该模型明确结合了驾驶员的工作记忆和长期记忆，以实现类似人类的预测。图1展示了AHMF的概述，该模型包含两个核心模块，即时空工作记忆编码和基于注意力的混合记忆融合。此外，我们还引入了必要的领域特定模块，以丰富各种数据集累积的长期记忆。

6. 实验结果

7. 总结 & 未来工作

在本文中，我们提出了一种新颖、更贴近人类的驾驶员注意力预测模型，该模型结合了工作记忆和长期记忆。

与现有方法不同，我们的方法显式地模拟了人类驾驶员在工作记忆中的场景理解和在长期记忆中的经验检索，以模仿他们在驾驶过程中定位视觉注意力时的情境感知机制。实验证明，所提出的记忆建模和融合方法显著提高了驾驶员注意力预测的性能。我们以非常直接的方式对这两种记忆进行了建模。未来应做出更多努力，通过认知科学与计算机视觉之间更深入的跨学科研究，找到更好的记忆建模方法。

#MapBEVPrediction

速度性能双双暴涨！直接BEV特征加速在线建图和行为预测

原标题：通过直接BEV特征注意力加速在线建图和行为预测

论文链

代码链接：https://github.com/alfredgu001324/MapBEVPrediction

作者单位：多伦多大学 Vector Institute NVIDIA Research 斯坦福大学

论文思路：

理解道路几何结构是自动驾驶车辆（AV）技术堆栈中的关键组成部分。尽管高精（HD）地图可以轻松提供此类信息，但它们存在高标注和维护成本。因此，许多最新的研究提出了从传感器数据中在线估计高精地图的方法。绝大多数的最新方法将多相机观测结果编码成中间表示，例如 BEV 网格，并通过解码器生成矢量地图元素。尽管这种架构性能优越，但它会消耗掉中间表示中编码的大量信息，阻碍下游任务（例如行为预测）利用这些信息。在这项工作中，本文提出了显露在线地图估计方法的丰富内部特征，并展示了它们如何更紧密地将在线地图构建与轨迹预测相结合。通过这样做，本文发现直接访问内部BEV特征可以使推理速度提高多达73%，并使在真实世界nuScenes数据集上的预测准确性提高多达29%。

论文设计：

感知自动驾驶车辆（AV）周围的静态环境是自动驾驶中的关键任务，它为下游的行为预测和运动规划模块提供几何信息（例如，道路布局）。传统上，高精（HD）地图一直是理解这些信息的基础，提供厘米级的道路边界、车道分隔线、车道中心线、人行横道、交通标志、道路标记等几何数据。它们在增强AV情境感知和下游预测任务中的导航判断方面起到了不可或缺的作用。然而，尽管HD地图的实用性不容否认，收集和维护这些地图却是劳动密集型且成本高昂的，这限制了它们的可扩展性。

近年来，在线高精（HD）地图估计方法作为一种替代方案出现，旨在直接从传感器观测中预测HD地图信息。以（多）相机图像和可选的LiDAR点云为起点，最先进的HD地图估计方法通常采用编码器-解码器神经网络架构（如图1所示）。编码器首先将传感器观测转换为 BEV 特征网格。然后，解码器从BEV特征中预测地图元素的位置和语义类型。生成的道路几何结构通常按地图元素类型（例如，道路边界、车道分隔线、人行横道）以多段线和多边形的组合形式构建。这些在线估计的地图作为离线HD地图的实用替代品，为下游任务（如行为预测和运动规划）提供必要的场景上下文。例如，最近的研究[13]展示了将各种地图估计方法与现有预测框架相结合的成功，突显了它们在加速端到端自动驾驶技术堆栈开发中的潜力。

虽然这种编码器-解码器方法能够生成准确的高精（HD）地图，但正如本文将在第4节中展示的那样，解码过程中使用的注意力机制计算成本高（占据了模型运行时间的大部分），并且不会生成带有相关不确定性的输出，这限制了下游模块处理不确定性的能力。此外，这种架构阻止了下游任务利用编码器在透视视角到鸟瞰视角（PV2BEV）转换过程中生成的丰富中间特征，导致无法描述为点集的信息被消耗掉。

为此，本文引入了三种新颖的场景编码策略，这些策略利用内部 BEV 特征来提升性能并加速在线地图构建和行为预测系统的运行时间。通过直接利用BEV特征，本文提出的方法在地图估计和行为预测框架之间实现了更紧密的集成，在真实世界的nuScenes数据集上，系统推理速度提高了多达73%，下游预测准确性提高了多达29%。

如第2节所述，绝大多数最先进的在线矢量化地图估计模型在内部采用 BEV 网格，以几何保持的方式对周围环境进行特征化。本文的方法侧重于通过直接访问这些内部BEV表示来进行轨迹预测。通过这样做，本文改善了从地图构建到预测的信息流动，甚至可以通过完全跳过地图解码来加速整个系统的运行时间（取决于预测器对车道信息的需求）。

图1：在线地图估计方法主要将多相机观测结果编码为标准的 BEV 特征网格，然后再解码为矢量化的地图元素。在这项工作中，本文提出通过直接访问在线地图估计方法的丰富BEV特征，将在线地图构建与下游任务深度集成。

图2：将BEV特征融入行为预测的三种不同策略。左：局部区域注意力编码代理与地图的交互；中：用BEV特征增强车道顶点；右：用时间序列BEV特征替换代理轨迹。

实验结果：

图3：本文的集成BEV预测方法在所有场景规模（代理数量和地图元素数量）和地图模型上运行速度都比解耦基线方法更快。

图4：使用第3.1节中的策略结合StreamMapNet [37]和HiVT [40]。通过用时间序列BEV特征替换车道信息，HiVT能够使其预测轨迹保持在当前车道上，与GT轨迹紧密对齐。

图5：使用第3.2节中的策略结合MapTR [22]和DenseTNT [12]。本文通过用BEV特征增强地图顶点，使DenseTNT能够生成非常准确的轨迹，避免了在基线和增强不确定性[13]设置中出现的道路边界入侵问题。

图6：使用第3.3节中的策略结合StreamMapNet [37]和DenseTNT [12]。通过用BEV特征替换代理轨迹信息，DenseTNT能够预测出在斑马线前停下的轨迹，相比于基线和增强不确定性[13]方法中的预测不足和过度问题。

表1：在nuScenes [1]数据集上，几乎每种地图构建和预测的组合都能从直接利用上游BEV特征中受益，某些组合的性能提升甚至达到25%或更多。百分比值表示本文的方法在预测性能上所实现的相对提升。

表2：对BEV patch 大小的探索表明， patch 过小（信息捕获不足）或过大（细粒度信息丢失）都会带来不利影响，最佳性能是在 patch 大小为20×20（对应于现实世界中的6米×6米）时实现的。

总结：

在这项工作中，本文提出了三种不同的策略，以在下游任务（如行为预测）中利用在线地图估计模型中的中间BEV特征。本文系统地评估了不同BEV编码策略的优势，并展示了在下游行为预测中融入BEV特征如何显著提升性能和运行时间。具体而言，结合各种在线地图构建和预测方法，在直接使用中间BEV特征时，实现了推理时间快达73%，并且在多种评估指标上预测准确性提高了多达29%。

#选NeRF还是3DGS作为开题方向？

“世纪”难题

目前研一下，研二上就准备开题了，想做nerf或者3dgs，想问问大佬们，哪个更适合作为我的大论文方向，更好创新一些，还有nerf还有哪些可创新的点吗？

CogitoErgoSum

你不应该选择两个技术来作为开题方向。NeRF才做了两年就被GS突破了，估计再一两年GS就又被取代了。。。你应该选择具体的任务，比如三维重建、新视角合成、3D生成等，这些任务可以用nerf/gs技术来实现。下一次新的技术出现，你便可以在你的任务中引入新技术，论文就有了

开发

现在还入nerf？49年入国军，我前两天开mpeg人家直接说现在已经nobody cares nerf了

愿你安好

nerf和3dgs都很卷了；两者相比，3dgs是主流，nerf能做的已经不多

说法与您零距离

NeRF vs. 3DGS：开题方向选择建议

非常高兴能为你提供一些关于NeRF和3DGS开题方向选择的建议。这两个方向在3D重建领域都非常热门，各有优缺点，选择哪个更适合，需要综合考虑你的研究兴趣、导师的建议以及当前的研究热点。

NeRF和3DGS的对比

NeRF（Neural Radiance Fields）：

优点：表现力强，可以重建出高保真、高质量的3D场景，对场景几何和纹理的重建效果都很好。
缺点：训练时间较长，对硬件要求较高，对于大规模场景的重建效率较低。
创新点：可以考虑在NeRF的基础上进行以下方面的创新：

加速训练：探索更快的优化算法、更有效的网络结构或硬件加速等。
提升质量：提高重建场景的细节层次、光照效果等。
扩展应用：将NeRF应用于新的领域，如视频重建、动态场景重建等。

3D Gaussian Splatting：

优点：渲染速度快，内存占用较少，适合实时应用。
缺点：表现力相对NeRF较弱，对于复杂场景的重建效果可能不如NeRF。
创新点：可以考虑在3DGS的基础上进行以下方面的创新：

提升质量：提高重建场景的细节层次、纹理效果等。
扩展功能：增加3DGS的交互性，例如支持实时编辑、材质编辑等。
结合其他技术：将3DGS与其他技术（如NeRF、SDF）结合，取长补短。

开题方向选择建议

研究兴趣：首先考虑你对哪个方向更感兴趣。如果你对高保真重建、细节刻画更感兴趣，可以考虑NeRF；如果你对实时渲染、交互性更感兴趣，可以考虑3DGS。
导师建议：与你的导师充分沟通，听取他们的建议。导师的专业知识和经验可以为你提供更全面的指导。
现有资源：评估一下你目前拥有的计算资源、数据集等。如果计算资源有限，可以优先考虑3DGS。
研究热点：关注当前的研究热点，选择一个有前景、有挑战性的方向。

NeRF的创新点建议

除了上面提到的几个方向，以下还有一些潜在的创新点：

NeRF for Novel View Synthesis：探索NeRF在新型视图合成中的应用，例如生成高质量的3D视频、全景图像等。
NeRF for Object Pose Estimation：利用NeRF进行物体姿态估计，在机器人抓取、AR/VR等领域有广泛应用。
NeRF for Material Estimation：基于NeRF进行材质估计，为后续的渲染和编辑提供基础。
NeRF for Light Field Rendering：将NeRF应用于光场渲染，实现更高质量的光场重建。

无论是选择NeRF还是3DGS，都需要深入了解其原理、优缺点以及最新的研究进展。在选择具体的研究方向时，建议多阅读相关论文，与导师进行充分沟通，并结合自己的兴趣和资源来做出最终决定。

小啊紫

选择 NeRF（Neural Radiance Fields）还是 3DGS（3D Generative Synthesis）作为开题方向，主要取决于你的兴趣、背景、以及你所在领域的研究现状。下面是对这两个方向的详细分析，包括各自的创新点和适用性。

1. NeRF（Neural Radiance Fields）

NeRF简介：NeRF是一种用于3D场景重建和渲染的深度学习模型。它通过对视角的神经网络建模，能够从稀疏的2D图像中合成高质量的3D场景。这种技术可以在没有传统3D模型的情况下生成逼真的3D效果。

创新点：

优化与改进：

加速渲染：NeRF的渲染速度较慢，研究加速技术，例如通过稀疏表示、近似推理或者硬件加速（如使用GPU/TPU）等方式。
动态场景建模：目前NeRF主要针对静态场景，研究如何处理动态场景或视频中的NeRF，提升其在动态环境中的表现。

多模态融合：多视角图像融合：

研究如何利用不同视角的图像和其他传感器数据（如深度相机、LiDAR）来改进NeRF模型的鲁棒性和精度。
跨领域应用：将NeRF技术应用于其他领域，例如医学影像、自动驾驶、虚拟现实等。

高效模型训练：数据稀疏性处理：

优化NeRF对稀疏数据的处理能力，提高模型在数据缺乏的情况下的表现。
模型压缩：研究如何将NeRF模型压缩到适合边缘设备的规模，降低计算资源需求。

改进的表达能力：

复杂光照条件：研究如何处理复杂的光照条件和反射效果，提高NeRF在真实世界中表现的准确性。
纹理和材质建模：改进对纹理和材质的建模能力，提高渲染效果的真实感。

适合程度：

适合度：如果你对3D计算机视觉和图形学有兴趣，且愿意挑战新技术的应用和优化，NeRF是一个非常前沿且充满创新潜力的方向。NeRF在深度学习领域具有广泛的研究前景，你可以在模型优化和新应用方面进行深入研究。

2. 3DGS（3D Generative Synthesis）

3DGS简介：3D Generative Synthesis（3D生成合成）涉及使用生成模型来创建3D对象和场景。这包括基于生成对抗网络（GANs）或变分自编码器（VAEs）等技术来生成3D模型。

创新点：

生成质量与多样性：提高生成质量：研究如何生成更高质量的3D模型，包括更高的分辨率、更复杂的几何细节。生成多样性：改进模型以生成更加多样化和具有真实感的3D对象，增强其适用性。
合成与转换：3D模型转换：研究如何在不同的3D模型之间进行高效的转换，例如从2D图像生成3D模型，或者从低分辨率模型生成高分辨率模型。风格迁移：在3D生成过程中引入风格迁移技术，生成具有特定风格的3D模型。
交互与应用：实时生成与交互：研究如何实时生成和修改3D模型，以适应虚拟现实、增强现实等应用场景的需求。个性化生成：将生成模型应用于个性化设计，例如生成用户定制的3D对象或场景。
训练数据和模型泛化：数据生成：研究如何生成高质量的3D训练数据集以改进模型的泛化能力。跨领域应用：探索3D生成技术在其他领域的应用，例如游戏开发、影视制作等。

适合程度：

适合度：如果你对3D建模和生成技术有兴趣，且希望探索生成模型在实际应用中的潜力，3DGS可能是一个非常吸引人的方向。这个领域涵盖了生成模型的应用和优化，具有广泛的创新机会。

总结

NeRF 是一个相对较新的领域，专注于通过神经网络进行3D场景重建和渲染，具有很大的研究潜力，特别是在加速渲染和动态场景处理等方面。如果你对深度学习和计算机视觉感兴趣，NeRF可能是一个很好的选择。

3DGS 是一个涉及生成模型的广泛领域，涵盖了3D模型生成和合成的多个方面。这个领域也有丰富的创新空间，特别是在生成质量、实时生成和应用方面。

最终的选择应基于你对特定领域的兴趣、已有的知识背景以及未来职业发展方向的考虑。无论你选择哪个方向，关键是要找到一个能够激发你热情的研究课题，并且能够在这个方向上进行有意义的创新

#近一年自动驾驶VLA优秀工作汇总

自UniAD（CVPR 2023 Best Paper）问世以来，端到端已经成为当下量产的主流范式。而从去年下半年开始，尤其是DeepSeek思维链流行以来，视觉-语言-动作（VLA）相关方法伴随着xx智能的爆火，相关论文已经横扫自动驾驶前沿领域。同时各家主机厂也争先恐后尝试落地研发，理想、文远知行、小米、小鹏等等都在大力尝试量产。

2025年已经过半，学术界和工业界也出现了很多优秀的工作。这期间我们和很多小伙伴做了交流：VLA能落地么？扩散模型的多模轨迹可靠么？强化学习如何优化VLA模型？如何构建强化学习的训练&推理流程？

带着这些问题，xxx采访了学术界和工业界第一线的大佬并做了VLA相关工作的汇总，文章按照发表时间排序，其中不乏全球顶尖高校团队和工业界研究团队的工作。并在文末做了一些对当下工作的观点整理，感兴趣的小伙伴不要错过呦~

标题：NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving

链接：https://arxiv.org/abs/2507.05227

单位：小鹏、中佛罗里达大学计算机视觉研究中心

摘要：自动驾驶系统在基于局部视觉信息的感知、预测和规划方面取得了显著进展，但它们难以整合人类驾驶员通常使用的更广泛的导航背景。为此小鹏汽车的团队提出了NavigScene，期望解决局部传感器数据与全局导航信息之间的关键差距，NavigScene是一种辅助的导航引导自然语言数据集，可在自动驾驶系统中模拟类人驾驶环境。此外开发了三种互补的方法来利用NavigScene：（1）导航引导推理，通过在提示方法中结合导航上下文来增强视觉-语言模型；（2）导航引导偏好优化，这是一种强化学习方法，扩展了直接偏好优化，通过为导航相关汇总信息建立偏好来改进视觉-语言模型的响应；以及（3）导航引导视觉-语言-动作模型，将导航指导和视觉-语言模型通过特征融合与传统驾驶模型集成。实验表明，NavigScene通过实现超越视觉范围的推理能力和提高对多样化驾驶场景的泛化能力，显著提高了感知、预测、规划和问答任务的性能。这项工作代表了构建能够以更高的可靠性和安全性在复杂、陌生环境中导航的更全面的自主驾驶系统的重要一步。

一句话总结：把导航应用到VLA系统，并基于强化学习的方法优化模型实现超视距推理和泛化。

主要贡献如下：

提出了NavigScene，这是一种新颖的辅助数据集，将局部多视角传感器输入与全局自然语言导航指导配对，解决了自主驾驶中局部感知和全局导航背景之间的关键差距；
在三种互补的范式中实现了NavigScene：导航引导推理、导航引导偏好优化和导航引导视觉-语言-动作模型，增强了自主驾驶系统的推理和泛化能力，超越了视觉范围限制；
在问答任务和端到端驾驶任务上进行了全面实验——包括感知、预测和规划——证明了将全局导航知识整合到自主驾驶系统中所带来的显著性能提升。

实验结果：

标题：A Survey on Vision-Language-Action Models for Autonomous Driving
链接：https://arxiv.org/abs/2506.24044
主页：https://github.com/JohnsonJiang1996/Awesome-VLA4AD
单位：麦吉尔、清华、小米等

一句话总结：最新的自动驾驶VLA综述，感兴趣的同学可以重点关注下。

标题：AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning
链接：https://arxiv.org/abs/2506.13757v1
主页：https://autovla.github.io/
单位：UCLA
摘要：视觉语言行动（VLA）模型的最新进展表明，通过利用世界知识和推理能力，端到端自动驾驶有望实现。然而，当前的VLA模型往往难以处理物理上不可行的动作输出、复杂的模型结构或不必要的冗长推理。在本文中，我们提出了AutoVLA，这是一种新的VLA模型，它将推理和动作生成统一在一个用于端到端自动驾驶的自回归生成模型中。AutoVLA直接从原始视觉输入和语言指令中执行语义推理和轨迹规划。我们将连续的轨迹标记为离散的、可行的动作，从而能够直接集成到语言模型中。对于训练，采用监督微调来为模型配备双思维模式：快速思维（仅轨迹）和慢速思维（通过思维链推理增强）。为了进一步提高规划性能和效率，引入了一种基于组相对策略优化（GRPO）的强化微调方法，减少了简单场景中不必要的推理。在真实世界和模拟数据集和基准测试中进行的广泛实验，包括nuPlan、nuScenes、Waymo和CARLA，证明了AutoVLA在开环和闭环中的竞争性能。定性结果展示了AutoVLA在不同场景下的自适应推理和准确规划能力。

一句话总结：SFT+GRPO的两阶段训练，在NAVSIM取得了92.12的PDMS指标。

主要贡献如下：

本文提出了AutoVLA，一个端到端的自动驾驶框架，利用与物理动作令牌集成的预训练VLM主干，实现了从原始视觉观察和语言指令中直接进行策略学习和语义推理；
提出了一种基于强化学习的后训练方法，该方法使用GRPO来实现自适应推理，并进一步提高模型在端到端驾驶任务中的性能；
证明了AutoVLA在多个自动驾驶基准测试中取得了卓越的性能，包括开环和闭环测试。

实验结果：

标题：ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving
链接：https://arxiv.org/abs/2506.08052
代码：https://github.com/xiaomi-research/recogdrive
单位：华科、小米
摘要：尽管端到端自动驾驶取得了显著进展，但在罕见和长尾的情况下，其性能会显著下降。最近的方法试图通过利用视觉语言模型（VLM）的丰富知识来应对这一挑战，但这些方法存在几个局限性：（1）VLM的预训练数据和现实世界驾驶数据之间存在显著的领域差距，（2）离散语言空间和连续动作空间之间的维度不匹配，以及（3）模仿学习倾向于捕捉数据集中存在的平均行为，这可能是次优甚至危险的。本文中，我们提出了ReCogDrive，这是一种将VLM与扩散规划器集成在一起的自动驾驶系统，采用三阶段范式进行训练。在第一阶段，使用大规模的驾驶问答数据集来训练VLM，减轻通用内容和现实驾驶场景之间的领域差异。在第二阶段，采用基于扩散的规划器进行模仿学习，将潜在语言空间的表示映射到连续的驱动动作。最后使用NAVSIM non-reactive仿真的强化学习对扩散规划器进行微调，使模型能够生成更安全、更人性化的驾驶轨迹。我们在以规划为导向的NAVSIM基准上评估了我们的方法，实现了89.6的PDMS，并设定了一个新的最先进的水平，比之前的SOTA高出5.6 PDMS。

一句话总结：收集并制作了高质量的2.3M QA训练数据，预训练+模仿学习+GRPO强化学习的三阶段训练流程。

主要贡献如下：

从三个方面提出了配备驾驶认知的端到端自动驾驶系统ReCogDrive：（1）VLM中的固有世界认知，（2）基于构建的高质量驾驶数据的驾驶领域认知，以及（3）通过强化学习进行多轨迹探索的广义认知。
提出了一个三阶段训练框架。首先，VLM在大规模驾驶问答数据集上进行了微调，以适应驾驶场景。接下来，通过行为克隆训练扩散模型以生成高保真轨迹。最后，提出了仿真环境辅助强化学习来生成更安全、更稳定的轨迹。
在NAVSIM基准上进行了广泛的实验。我们的方法达到了最先进的PDMS评分89.6，突出了其有效性和现实可行性。

实验结果：

标题：Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models
链接：https://arxiv.org/abs/2505.23757
项目主页：https://github.com/ahydchh/Impromptu-VLA
单位：清华AIR、博世
摘要：自动驾驶的视觉语言行动（VLA）模型显示出希望，但在非结构化的极端情况下却效果有限，这主要是由于缺乏有针对性的基准。为了解决这个问题，我们引入了Impromptu VLA。我们的核心贡献是Impromptu VLA数据集：从8个开源大规模数据集中提取的200多万个源片段中提炼出80000多个精心策划的视频片段。该数据集基于我们对四个具有挑战性的非结构化类别的新颖分类，并具有丰富的、面向planning的问答标注和动作轨迹。至关重要的是，实验表明，用我们的数据集训练的VLA在既定的基准上实现了显著的性能提升——提高了闭环NeuroNCAP评分和碰撞率，并在开环nuScenes轨迹预测中达到了接近SOTA的L2精度。

一句话总结：自动驾驶VLA大规模Bench。

主要贡献如下：

Impromptu VLA数据集：一个公开的、大规模的、标注丰富的资源，精心关注各种具有挑战性的非结构化驾驶场景，旨在填补现有数据资源中的关键空白；
非结构化道路状况的系统分类，以及可扩展的、以VLM为中心的数据管理管道，用于识别、分类和全面标注，并带有适合培训高级VLM的多任务问答；
大量的实验证据表明，使用Impromptu VLA数据集进行训练可以显著提高标准驾驶基准的结果，并作为评估和提高非结构环境中VLM能力的有效诊断工具；

实验结果：

标题：DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving
链接：https://arxiv.org/abs/2505.19381
单位：博世、清华AIR
摘要：端到端自动驾驶的研究兴趣激增，因为其完全可差异化的设计集成了模块化任务，即感知、预测和规划，这使得在追求最终目标的过程中能够进行优化。尽管端到端范式具有巨大的潜力，但现有方法存在几个方面的问题，包括昂贵的BEV（鸟瞰图）计算、动作多样性和复杂现实场景中的次优决策。为了应对这些挑战，我们提出了一种新的混合稀疏密集扩散策略，基于VLM称为Diff-VLA。我们探索了高效多模态驾驶行为的稀疏扩散表示。此外，我们重新思考了VLM驾驶决策的有效性，并通过跨代理、地图实例和VLM输出的深度交互来改进轨迹生成。DiffVLA在Autonomous Grand Challenge 2025中表现出了卓越的性能，实现了45.0 PDMS。

主要贡献如下：

VLA引导模块：该模块以多视图图像为输入，输出轨迹和高级驾驶命令。然后，这些命令与外部驾驶命令（例如导航指令）相结合，作为基于扩散的规划模块的输入；
混合感知模块：我们的混合感知模型有两个分支，用于不同的感知任务。密集感知分支构建了一个密集的鸟瞰图（BEV）特征表示，该特征表示作为主要输入被输入到规划模块中。为了提高规划者对障碍物和道路结构的理解，稀疏感知分支在实例级别提取信息（例如，检测到的障碍物、车道边界、中心线、停车线等），并将其传播到规划模块；
基于扩散的规划模块：使用截断扩散策略，该策略利用多模态anchor作为先验，并采用简化的扩散时间表。为了进一步提高扩散模型的性能，并提出了一种分层信息编码策略来整合异构输入。

实验结果：

标题：DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving
链接：https://arxiv.org/abs/2505.16278
主页：https://thinklab-sjtu.github.io/DriveMoE/
单位：上海交通大学
摘要：端到端自动驾驶（E2E-AD）需要有效处理多视图传感数据，并对各种复杂的驾驶场景进行稳健处理，特别是激进转弯等罕见的驾驶行为。LLM中的MoE架构的最新成功表明，参数的专门化能够实现强大的可扩展性。在这项工作中，我们提出了DriveMoE，这是一种基于MoE的新型E2E-AD框架，具有场景专用视觉MoE和技能专用动作MoE。DriveMoE建立在我们的π0视觉语言动作（VLA）基线（最初来自嵌入式AI领域）之上，称为Drive-π0。具体来说，我们通过训练路由器根据驾驶环境动态选择相关摄像头，将Vision MoE添加到Drive-π0中。这种设计反映了人类的驾驶认知，驾驶员有选择地关注关键的视觉线索，而不是详尽地处理所有的视觉信息。此外，我们通过训练另一个路由器来激活针对不同驾驶行为的专门专家模块，从而添加了Action MoE。通过明确的行为专业化，DriveMoE能够处理各种场景，而不会像现有模型那样受到模态平均的影响。在Bench2Drive闭环评估实验中，DriveMoE实现了最先进的（SOTA）性能，证明了在自动驾驶任务中结合视觉和动作MoE的有效性。我们将发布DriveMoE和Drive-π0的代码和模型。

一句话总结：自动驾驶VLA和MoE结合的工作。

主要贡献如下：

将最初为嵌入式AI设计的VLA基础模型π0扩展到自动驾驶领域，将Drive-π0开发为视觉感知、场景理解和行为规划的统一框架。
认识到嵌入式人工智能和自动驾驶.之间的差异，提出了DriveMoE，这是第一个将混合专家（MoE）集成到感知和决策中的框架，以解决多视图处理和多样化驾驶行为中的效率低下问题。
设计了一个用于动态相机视图选择的场景专用视觉MoE和一个用于特定行为规划的技能专用动作MoE，解决了多视图冗余和技能专业化的挑战。
证明DriveMoE在Bench2Drive闭环仿真基准上实现了最先进的（SOTA）性能，显著提高了对罕见驾驶行为的鲁棒性。

实验结果：

标题：DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models
链接：https://arxiv.org/abs/2506.05667
数据集：https://huggingface.co/datasets/LiAuto-DriveAction/drive-action
单位：理想汽车
摘要：视觉语言行动（VLA）模型具有先进的自动驾驶技术，但现有的基准仍然缺乏场景多样性、可靠的行动级标注和符合人类偏好的评估协议。为了解决这些局限性，我们引入了DriveAction，这是第一个专门为VLA模型设计的动作驱动基准，由2610个驾驶场景生成的16185个QA对组成。DriveAction利用生产级自动驾驶汽车用户主动收集的真实驾驶数据来确保广泛和有代表性的场景覆盖，提供直接从用户实际驾驶操作中收集的高级离散行动标签，并实施了一个基于行动的树形结构评估框架，该框架明确地将视觉、语言和行动任务联系起来，支持全面和特定任务的评估。我们的实验表明，最先进的视觉语言模型（VLM）需要视觉和语言指导才能进行准确的动作预测：平均而言，在没有视觉输入的情况下，准确率下降了3.3%，没有语言输入的情况下降了4.1%，没有语言输入的情况下下降了8.0%。我们的评估支持以稳健和一致的结果精确识别模型瓶颈，从而为推进自动驾驶中的类人决策提供新的见解和严谨的基础。

标题：Vision-Language-Action Models: Concepts, Progress, Applications and Challenges
链接：https://arxiv.org/abs/2505.04769
单位：康奈尔大学等

VLA综述

标题：OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model
链接：https://arxiv.org/abs/2503.23463
主页：https://drivevla.github.io/
单位：慕尼黑工业大学、慕尼黑大学
摘要：我们介绍OpenDriveVLA，这是一种专为端到端自动驾驶设计的视觉语言动作（VLA）模型。OpenDriveVLA建立在开源预训练的大型视觉语言模型（VLM）之上，以生成可靠的驾驶行为，这些行为取决于3D环境感知、自车状态和驾驶员命令。为了弥合驱动视觉表示和语言嵌入之间的模态差距，我们提出了一种分层视觉语言对齐过程，将2D和3D结构化视觉标记投影到统一的语义空间中。此外，OpenDriveVLA通过自回归代理-环境-自我交互过程对自我-车辆、周围代理和静态道路元素之间的动态关系进行建模，确保在空间和行为上知情的轨迹规划。nuScenes数据集上的大量实验表明，OpenDriveVLA在开环轨迹规划和驾驶相关问答任务中取得了最先进的结果。定性分析进一步说明了OpenDriveVLA在遵循高级驾驶命令和在具有挑战性的场景下稳健生成轨迹方面的卓越能力，突显了其在下一代端到端自动驾驶方面的潜力。我们将发布我们的代码，以促进该领域的进一步研究。

主要贡献如下：

提出了OpenDriveVLA，这是一个端到端的视觉语言动作模型，它生成了基于多模态输入的可靠驾驶轨迹。
引入了一个分层视觉语言特征对齐模块，将结构化的2D和3D视觉标记投影到统一的语义嵌入空间中，以促进语言引导的轨迹生成。
设计了一个代理-环境-自我交互过程，以捕捉自我车辆、动态代理和静态地图元素之间的交互，显著提高了复杂交通场景中的运动预测准确性和轨迹可靠性。
在nuScenes数据集上进行的广泛实验表明，OpenDriveVLA在开环规划和驾驶相关问答方面都取得了最新的最先进成果，始终优于之前基于LLM和端到端的自动驾驶方法。

实验结果：

标题：ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation
链接：https://arxiv.org/abs/2503.19755
主页：https://xiaomi-mlab.github.io/Orion/
单位：华科、小米
摘要：由于因果推理能力有限，端到端（E2E）自动驾驶方法在交互式闭环评估中仍难以做出正确决策。目前的方法试图利用视觉语言模型（VLMs）强大的理解和推理能力来解决这一困境。然而，由于语义推理空间和动作空间中纯数值轨迹输出之间的差距，E2E方法的VLM在闭环评估中表现良好的问题仍然存在。为了解决这个问题，我们提出了ORION，这是一个通过视觉语言指导动作生成的整体E2E自动驾驶框架。ORION独特地结合了QT Former来聚合长期历史背景、用于驱动场景推理的大型语言模型（LLM）和用于精确轨迹预测的生成规划器。ORION进一步将推理空间和动作空间对齐，为视觉问答（VQA）和规划任务实现统一的E2E优化。我们的方法在挑战Bench2Drive数据集上实现了令人印象深刻的闭环性能，即77.74的驾驶分数（DS）和54.62%的成功率（SR），比最先进的（SOTA）方法高出14.28 DS和19.61%SR。

主要贡献如下：

由于生成模型能够表征数据的潜在分布，我们通过生成规划器弥合了VLM推理空间和轨迹动作空间之间的差距，使VLM能够理解场景并指导轨迹生成。
ORION中的QT former有效地捕获了长期的时间依赖性，使模型能够将时间视觉上下文集成到推理和动作空间中。
ORION在Bench2Drive闭环基准测试中表现出色，没有花哨的功能。实验还表明，ORION与多种生成模型兼容，这进一步证明了我们提出的框架的灵活性。

实验结果：

标题：VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving
链接：https://arxiv.org/abs/2412.15544
主页：https://www.huang-zilin.com/VLM-RL-website/
单位：威斯康星大学麦迪逊分校
摘要：近年来，基于强化学习（RL）的学习驾驶策略的方法在自动驾驶领域越来越受到关注，并在各种驾驶场景中取得了显著进展。然而，传统的强化学习方法依赖于人工设计的奖励，这需要大量的人力，而且往往缺乏通用性。为了解决这些局限性，我们提出了\textbf{VLM-RL}，这是一个统一的框架，将预训练的视觉语言模型（VLMs）与RL集成在一起，使用图像观察和自然语言目标生成奖励信号。VLM-RL的核心是对比语言目标（CLG）作为奖励范式，它使用积极和消极的语言目标来产生语义奖励。我们进一步引入了一种分层奖励合成方法，该方法将基于CLG的语义奖励与车辆状态信息相结合，提高了奖励稳定性，并提供了更全面的奖励信号。此外，在训练过程中采用批处理技术来优化计算效率。CARLA模拟器中的大量实验表明，VLM-RL优于最先进的基线，碰撞率降低了10.5%，路线完成率提高了104.6%，对看不见的驾驶场景具有鲁棒的泛化能力。此外，VLM-RL可以无缝集成几乎任何标准的RL算法，有可能彻底改变依赖人工奖励工程的现有RL范式，并实现持续的性能改进。

标题：OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving
链接：https://arxiv.org/abs/2412.15208
代码：https://github.com/taco-group/OpenEMMA
单位：德州农工大学
摘要：自从多模态大型语言模型（MLLM）出现以来，它们在广泛的现实世界应用中产生了重大影响，特别是在自动驾驶（AD）领域。他们处理复杂视觉数据和推理复杂驾驶场景的能力为端到端AD系统的新范式铺平了道路。然而，开发AD端到端模型的进展缓慢，因为现有的微调方法需要大量资源，包括广泛的计算能力、大规模数据集和大量资金。从推理计算的最新进展中汲取灵感，我们提出了OpenEMMA，这是一个基于MLLM的开源端到端框架。通过整合思维链推理过程，OpenEMMA在利用各种MLLM时，与基线相比实现了显著改进。此外，OpenEMMA在各种具有挑战性的驾驶场景中展示了有效性、通用性和鲁棒性，为自动驾驶提供了一种更高效、更有效的方法。

标题：EMMA: End-to-End Multimodal Model for Autonomous Driving
链接：https://arxiv.org/abs/2410.23262
主页：https://waymo.com/blog/2024/10/introducing-emma/
单位：Waymo
摘要：我们介绍了EMMA，一种用于自动驾驶的端到端多模态模型。EMMA建立在多模态大型语言模型的基础上，将原始摄像头传感器数据直接映射到各种特定于驾驶的输出中，包括规划者轨迹、感知对象和道路图元素。EMMA通过将所有非传感器输入（如导航指令和自车状态）和输出（如轨迹和3D位置）表示为自然语言文本，最大限度地利用了预训练的大型语言模型中的世界知识。这种方法允许EMMA在统一的语言空间中联合处理各种驾驶任务，并使用任务特定的提示为每个任务生成输出。根据经验，我们通过在nuScenes上实现最先进的运动规划性能以及在Waymo开放运动数据集（WOMD）上取得有竞争力的结果来证明EMMA的有效性。EMMA还为Waymo开放数据集（WOD）上的相机主3D对象检测提供了有竞争力的结果。我们表明，将EMMA与规划器轨迹、对象检测和道路图任务联合训练，可以在所有三个领域取得进步，突显了EMMA作为自动驾驶应用的通用模型的潜力。然而，EMMA也表现出一定的局限性：它只能处理少量的图像帧，不包含激光雷达或雷达等精确的3D传感方式，计算成本很高。我们希望我们的研究结果能够激发进一步的研究，以缓解这些问题，并进一步发展自动驾驶模型架构的最新技术。

标题：Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving
链接：https://arxiv.org/abs/2410.22313
主页：https://github.com/hustvl/Senna
单位：华科、地平线
摘要：端到端自动驾驶在大规模数据方面表现出强大的规划能力，但由于常识有限，在复杂、罕见的场景中仍存在困难。相比之下，视觉语言模型（LVLM）在场景理解和推理方面表现出色。前进的道路在于融合两种方法的优势。以前使用LVLM预测轨迹或控制信号的方法会产生次优结果，因为LVLM不太适合精确的数值预测。本文介绍了Senna，这是一种将LVLM（Senna VLM）与端到端模型（Senna-E2E）相结合的自动驾驶系统。Senna将高级规划与低级轨迹预测脱钩。Senna VLM以自然语言生成规划决策，而Senna-E2E则预测精确的轨迹。Senna VLM利用多图像编码方法和多视图提示来实现高效的场景理解。此外，我们引入了以计划为导向的QA和三阶段培训策略，在保持常识的同时提高了Senna VLM的计划绩效。对两个数据集的广泛实验表明，Senna实现了最先进的规划性能。值得注意的是，通过在大规模数据集DriveX上进行预训练和在nuScenes上进行微调，Senna与未经预训练的模型相比，显著降低了27.12%的平均规划误差和33.33%的碰撞率。我们认为，Senna的跨场景泛化和可转移性对于实现全自动驾驶至关重要。

写在最后

最后分享下笔者对自动驾驶VLA进展的个人看法：

基准还需进一步建立，很多工作都在构建智驾VLA Benchmark，像Impromptu VLA、DriveAction，其中DriveAction比较侧重国内的实车场景，未来期望更多业内公司开源有价值的VLA基准；
前沿算法主要聚焦在图像上的理解：思维链、空间理解这些都是当下的标配了，但是实车运行中是否需要这么长的思维链是需要打问号的，或者换句话说思维链对于车端模型是必须的吗？
时序的工作还比较少，而车端算法基本上都要求时序，未来应该会有进一步的工作；
轨迹的输出形式有两大类：大模型自回归文本输出或者扩散模型生成多模轨迹，但是扩散模型的效率和性能能否满足实际应用还有待验证；
大规模自动驾驶预训练模型/基座模型仍然欠缺，大部分的工作使用开源大模型Qwen或者自驾环视图像的小规模预训练（nuScenes、Bench2Drive）；
一些工作在NAVSIM上的指标刷的很高，已经逼近人类专家的性能；

#TACTILE-VLA

激活VLA模型的物理知识以实现触觉泛化（清华大学最新）

提出背景与核心问题

视觉-语言-动作模型凭借其强大的语义理解和跨模态泛化能力，已成为通用型机器人代理研发的核心驱动力。这类模型依托预训练的视觉-语言backbone网络，能够解读抽象指令并在多种任务中展现出优异的泛化性能。然而，现有VLA模型在接触密集型场景中存在显著短板——难以将决策精准扎根于物理现实，尤其在需要精细力控制的交互任务中表现乏力。

造成这一局限的关键原因在于触觉感知的缺失。与视觉和语言提供的高层语义信息不同，触觉感知能传递物理交互中丰富、局部且动态的反馈，如摩擦、柔顺性和材料特性等，这些信息对涉及接触的操作任务至关重要。尽管已有研究尝试将触觉纳入机器人系统，但多将其视为补充性感知模态，未能真正实现与决策过程的深度融合。

针对这一问题，Tactile-VLA旨在通过深度融合视觉、语言、动作与触觉感知，激活VLA模型中隐含的物理知识，实现接触密集型任务中的精准力控制与泛化能力。

核心创新与研究目标

1）关键发现

研究团队的核心发现是：视觉-语言模型（VLM）的先验知识中已包含对物理交互的语义理解。通过少量演示将这种知识与机器人的触觉传感器连接，即可激活该先验知识，使机器人在接触密集型任务中实现零样本泛化。这一发现打破了传统认知中“VLM仅能处理抽象语义”的局限，为物理交互场景的语义接地提供了新思路。

2）主要创新点

Tactile-VLA框架：首次将触觉感知作为原生模态引入VLA模型，构建视觉、语言、动作与触觉的深度融合架构，实现从抽象语义到物理力控制的直接映射。
混合位置-力控制器：创新性地将力目标转化为位置调整指令，在保证运动精度的同时实现对接触力的精细控制，解决了位置与力控制的协同难题。
Tactile-VLA-CoT变体：引入思维链（CoT）推理机制，使机器人能基于触觉反馈分析失败原因并自主调整策略，显著提升复杂场景中的稳健性。

3）主要解决的问题

旨在实现三大能力：

触觉感知的指令遵循：让机器人理解“轻柔地”“用力地”等与力相关的语言修饰词，弥合抽象意图与物理执行的差距。
触觉相关常识的运用：使机器人能基于物体属性（如重量、易碎性）自主调整交互力，无需显式指令。
触觉参与的自适应推理：通过分析触觉反馈诊断任务失败，自主制定纠正策略，实现复杂场景的稳健操作。

Tactile-VLA框架

1）整体架构

Tactile-VLA的核心设计理念是多模态深度融合，其架构包含四个关键模块：

多模态编码器：分别处理视觉、语言、触觉和本体感觉输入，将其转化为统一的token表示。其中，视觉信息通过预训练的视觉Transformer（ViT）编码，触觉信号通过MLP编码器处理时间序列特征，语言则由通用tokenizer转换。
Transformer backbone网络：对融合后的多模态token进行跨注意力计算，构建包含视觉场景、语言指令和触觉反馈的上下文表征。
触觉感知动作专家：基于上下文表征生成包含目标位置和目标力的动作向量，直接指导物理交互。
混合位置-力控制器：将动作向量转化为机器人可执行的控制指令，平衡位置精度与力控制需求。

这一架构的关键在于token级融合——通过非因果注意力机制使视觉、语言和触觉token自由交互，形成真正扎根于物理现实的语义表征。

2）混合位置-力控制机制

为解决位置与力控制的协同问题，Tactile-VLA设计了创新的混合控制策略：

控制逻辑：以位置控制为主，仅在力误差超过阈值时引入力反馈调整，公式如下：

其中ΔF为目标力与实测力的差值，K为增益矩阵，τ为触发阈值。

双通道分离：将外部净力（通过机械臂笛卡尔位置控制）与内部抓取力（通过夹爪宽度控制）分离，实现力的精细化调节。

这种设计既保证了操作任务所需的位置精度，又能在接触阶段实现柔顺的力控制，特别适合USB插拔、物体抓取等接触密集型场景。

3）思维链推理机制（Tactile-VLA-CoT）

为提升机器人在复杂场景中的自适应能力，Tactile-VLA-CoT引入了基于语言的推理过程：

触发机制：按固定间隔评估任务进展，当检测到失败时启动推理。
推理流程：

判定任务成功与否（如“黑板未擦干净”）；
分析失败原因（如“法向力不足”）；
生成纠正指令（如“增加下压力度”）。

训练方式：使用包含失败案例和语言注释的小型数据集微调模型，保留其通用推理能力的同时，使其能从触觉信号中推断物理现象（如滑动、压力不足）。

这一机制使机器人的适应过程从“黑箱式调整”转变为“可解释的推理”，显著提升了复杂任务中的鲁棒性。

4）数据收集方法

为获取高质量的触觉-语言对齐数据，研究团队构建了专用数据采集系统：

硬件平台：基于通用操作接口（UMI），配备双高分辨率触觉传感器，可同时采集法向力和剪切力。
同步机制：将100Hz触觉信号与20Hz视觉数据时间对齐，确保多模态数据的时空一致性。
标注方式：由人类操作员结合触觉反馈提供演示，同时记录与力相关的语言指令（如“轻柔插入”），构建VLA-T训练数据集。

这种数据采集方式解决了传统遥操作中“力反馈缺失”的问题，为模型学习语言与力的映射关系提供了关键支撑。

实验验证与结果分析

研究团队设计了三组实验，分别验证Tactile-VLA在指令遵循、常识运用和自适应推理三方面的能力，对比模型包括π₀-base、π₀-fast（两种VLA基线模型）以及Tactile-VLA-CoT（带推理机制的变体）。

1）触觉感知的指令遵循实验

任务设计：

任务A（USB插拔）：训练机器人理解“轻柔地”“用力地”等指令，学习力与语言的映射关系。
任务B（充电器插拔）：仅训练基本动作，不提供力相关指令，测试模型的零样本泛化能力。

结果分析：

成功率：Tactile-VLA在USB任务中达到35%，充电器任务中达90%，显著高于基线模型（最高40%）。
力控制精度：在USB任务中，模型对“轻柔地”施加0.51N力，对“用力地”施加2.57N力；在零样本的充电器任务中，仍能保持力的区分度（“轻柔地”4.68N vs “用力地”9.13N），而基线模型的力输出与指令无关。

这表明Tactile-VLA真正学习到了与力相关语言的语义内涵，并能跨任务泛化。

2）触觉相关常识的运用实验

任务设计：