当前位置：首页 > news >正文

【论文阅读】OpenDriveVLA：基于大型视觉语言动作模型的端到端自动驾驶

news 2025/9/23 8:20:38

慕尼黑工业大学和慕尼黑大学的研究人员开发了OpenDriveVLA，一个端到端自动驾驶框架，它将视觉-语言模型与3D环境感知和轨迹规划相结合，在nuScenes数据集上实现了最先进的性能，同时通过分层跨模态对齐实现了自然语言命令的解释。

简介

传统上，自动驾驶技术依赖于模块化系统，这些系统将感知、预测和规划分离成不同的组件。虽然这种方法有效，但可能会导致模块之间的误差传播，并且难以应对需要综合推理的复杂场景。大型语言模型（LLM）和视觉语言模型（VLM）的最新进展已经显示出理解复杂场景和做出高级决策的潜力，但将它们直接应用于自动驾驶提出了重大挑战。

OpenDriveVLA 训练概览

图 1：OpenDriveVLA 模型的多阶段训练过程的概述，展示了如何通过分层特征对齐、驾驶指令微调、智能体-环境-自我交互和轨迹规划来集成视觉、语言和动作能力。

来自慕尼黑工业大学和慕尼黑路德维希-马克西米利安大学的研究人员开发了 OpenDriveVLA，这是一种新颖的端到端自动驾驶框架，集成了视觉、语言和动作能力。该模型旨在利用大型视觉语言模型的强大推理能力，同时解决它们在自动驾驶领域的主要局限性：动态 3D 环境中较差的空间推理能力，在安全关键应用中不可接受的幻觉，以及平衡推理速度与规划有效性的需求。

架构概述

OpenDriveVLA 代表了与现有采用视觉语言模型的自动驾驶方法的一次重大背离。虽然之前的工作已经探索了使用 VLM 进行场景描述、高级决策制定或直接从 2D 视频预测动作，但 OpenDriveVLA 创建了一种更集成的方法，该方法明确地对 3D 空间和交互进行建模。

该架构由几个关键组件组成：

一个 3D 视觉感知模块，用于从多视角图像中提取结构化的环境 tokens
一种分层视觉-语言对齐机制，用于将视觉 tokens 投影到语言模型的嵌入空间中
一个语言模型（基于 Qwen 2.5-Instruct），它将视觉感知与驾驶知识相结合
一个轨迹规划模块，用于生成驾驶动作作为路点的序列

以下说明了将 VLM 融入自动驾驶的三种主要方法：

VLM 集成方法

图 2：特征对齐方法，其中 VLM 用于问答/解释，而规划则单独处理。

VLM 高级决策

图 3：使用 VLM 提供指导单独规划模块的高级决策。

端到端 VLA 方法

图 4：OpenDriveVLA 的方法，使用端到端的视觉-语言-动作模型，该模型直接处理规划。

多阶段训练方法

OpenDriveVLA 采用多阶段训练流程，以有效整合视觉、语言和动作能力：

阶段 1：分层特征对齐 - 通过专门的投影器将视觉标记与文本描述对齐。
阶段 2：驾驶指令微调 - 该模型在精选的驾驶指令问答数据集上进行训练，涵盖感知、预测和推理。
阶段 2.5：智能体-环境-自我交互 - 引入条件智能体运动预测任务来建模动态交互。
阶段 3：轨迹规划微调 - 该模型学习以路点序列的形式生成驾驶轨迹。

这种渐进式训练策略使模型能够构建日益复杂的能力，同时保持视觉感知和语言理解之间的对齐。

3D 视觉环境感知

OpenDriveVLA 的一项关键创新在于其 3D 视觉感知方法。与主要在 2D 图像上运行的模型不同，OpenDriveVLA 将特征提升到鸟瞰图 (BEV) 空间，以更好地建模空间关系。此过程包括：

使用预训练的 ResNet-101 从多视角图像中提取多尺度 2D 特征
将这些特征聚合和提升到 BEV 空间
采用三个专门的查询模块来提取结构化环境标记：
- 全局场景采样器：捕获整体场景上下文
- 智能体查询转换器：专注于车辆和行人等动态智能体
- 地图查询转换器：提取有关道路和车道等静态地图元素的信息

这种结构化的视觉感知方法为可靠的空间推理奠定了基础，解决了传统 VLM 应用于自动驾驶时的关键限制。

分层视觉-语言对齐

为了弥合视觉感知和语言理解之间的差距，OpenDriveVLA 采用了一种分层视觉-语言对齐机制。这包括：

将提取的视觉标记投影到预训练 LLM 的词嵌入空间中
对不同类型的视觉信息（场景、智能体、地图元素）使用特定于标记的投影器
通过对比学习将每个视觉标记与相应的文本描述对齐

这种方法确保了语言模型可以有效地理解和推理视觉信息，从而在感知和高级推理之间创建无缝集成。

智能体-环境-自我交互

自动驾驶的一个关键方面是理解自我车辆、其他智能体和环境之间的动态交互。OpenDriveVLA 通过以下方式解决此问题：

一项条件智能体运动预测任务，其中模型预测每个检测到的智能体的未来运动
基于视觉嵌入、场景上下文、地图结构和自我车辆状态的交互显式建模
将这种交互理解集成到轨迹规划过程中

此组件有助于模型更深入地了解交通动态，从而实现更具预测性和适应性的驾驶行为。

端到端轨迹规划

OpenDriveVLA 的最终目标是以轨迹的形式生成适当的驾驶动作。这是通过以下方式实现的：

将未来的驾驶动作表示为路点序列
将路点标记化为可由语言模型处理的离散文本标记
使用 LLM 自回归生成标记化轨迹
将生成过程置于视觉感知标记、自我状态和高级驾驶命令的条件下
将生成的标记解码回数值路点

这种方法使模型能够利用语言模型强大的推理能力，同时保持轨迹规划所需的精度。该模型可以解释不同的命令并生成适当的轨迹，如下例所示：

命令解释示例

图5：示例展示了OpenDriveVLA如何解释不同的驾驶命令并生成相应的轨迹，同时为其决策提供解释。

实验结果

OpenDriveVLA 在 nuScenes 数据集上进行了评估，该数据集是自动驾驶研究的标准基准。结果表明：

在开环轨迹规划中表现出最先进的性能，优于现有的自回归语言模型和端到端驾驶模型
以较小的 0.5B 参数版本表现出具有竞争力的性能，突出了模型的效率
在驾驶相关问答任务中表现出卓越的性能，始终优于之前的语言增强驾驶模型和通用多模态基线

消融研究证实了以下方面的重要性：

用于精确轨迹规划的视觉输入
用于调整驾驶行为的高级命令
用于预测未来轨迹的历史状态信息

定性示例展示了模型的能力：

解释不同的驾驶员命令并生成相应的轨迹
为其驾驶决策提供解释
与其他方法相比，生成更稳定和适应性更强的轨迹

场景理解示例

图6：OpenDriveVLA 场景理解能力的示例，展示了多视角摄像头输入和为“保持前进”命令生成的轨迹。

与现有方法的比较

OpenDriveVLA 代表了将语言模型与自动驾驶集成方面的进步，主要体现在以下几个方面：

与 VLM 标注/问答方法相比：虽然这些方法使用 VLM 来描述场景或回答有关驾驶场景的问题，但它们并不直接生成驾驶动作。OpenDriveVLA 将感知、推理和动作生成集成在一个模型中。
与 VLM 高级决策相比：一些方法使用 VLM 来做出高级决策（例如，“在路口右转”），这些决策会告知单独的规划模块。OpenDriveVLA 直接生成详细的轨迹计划，从而实现更细致的控制。
与没有语言能力的端到端模型相比：传统的端到端驾驶模型直接从传感器数据学习到动作，但缺乏语言模型的推理能力。OpenDriveVLA 集成了语言理解，以实现对复杂驾驶场景进行更复杂的推理。
与其他 VLA 模型相比：虽然最近的一些工作探索了用于驾驶的视觉-语言-动作模型，但 OpenDriveVLA 对 3D 空间以及智能体-环境-自我的交互进行显式建模，代表了一种更全面的自动驾驶任务方法。