当前位置：首页 > news >正文

【理想汽车智驾方案介绍专题 -1】端到端+VLM 方案介绍

news 2025/7/18 5:58:51

一、前言

2025 年的 GTC 大会上，理想汽车的分享了其最新一代的辅助驾驶方案 MindVLA（视觉-语言-动作端到端大模型）的相关技术方案，此模型结合了 V-Spatial Intelligen、L–Linguistic Intelligence、A-Action Policy 这 3 种先进技术，包含了当时国际上最先进的模型和概念，比如 LLM、VLM、VLA、Diffusion model、Reinforcement Learning 等等。

本帖将结合演讲内容和相关学术论文，对理想汽车的智驾方案演进路线进行介绍。

二、端到端+VLM 方案

众所周知，中国的道路因素复杂得令人发指，懂得都懂，且行业标杆 Tesla 也处理不好这种场景这里就不一一罗列了。因此，大模型技术应该是目前可以解决这种复杂场景最好的办法，理想汽车根据自己的理解提出了端到端+VLM 方案。

在这里插入图片描述

2.1 快慢思考系统

理想的端到端+VLM 方案充分借鉴了心理学家丹尼尔·卡尼曼（Daniel Kahneman）提出的快慢思考系统，其核心看法是人类的思维系统由快-慢两个系统组成，详细的介绍如下表所示：

在这里插入图片描述

那么在快慢思考系统思想的启发下，理想汽车的端到端+VLM 设计方案可以总结为：

system1-action: 快系统，部署 E2E 端到端模型系统在一颗 ORIN X 芯片上，只需要输入传感器数据，不需要高精地图等先验知识，端到端模型会根据车载传感器数据直接输出轨迹信息，模型完全由数据进行驱动。

system2-decision: 慢系统，部署 VLM 大模型在另一颗 ORIN X 芯片上，VLM 为具有 22 亿参数量的 LLM 基座模型，具备全局理解与推理能力，实现多模态数据理解和逻辑推理，VLM 通过思维链 CoT 做复杂的逻辑分析，并将结果反馈给智驾决策快系统。

2.2 端到端+VLM 方案介绍

在这里插入图片描述

DriveVLM 基于大型视觉语言模型（VLM）设计，通过图像输入 → 链式推理（Chain-of-Thought， CoT）→ 输出驾驶计划的过程； DriveVLM-Dual 将 DriveVLM 生成的结果与传统自动驾驶 pipeline（感知、预测、规划）融合，提升精度与实时性。

2.2.1 DriveVLM

DriveVLM 输出 Scene Description（场景描述）、Scene Analysis（场景分析）和 Hierarchical Planning（层级规划），这 3 个部分的作用分别是：

Scene Description（场景描述）

任务：语言描述当前驾驶环境。

示例输出：

Weather: cloudy

Road type: suburban

Time: daytime

Lane condition: right lane impassable, left lane passable

Critical objects: e.g., police car at bounding box

Scene Analysis（场景分析）

任务：分析关键目标对自车的影响。

示例输出：

Characteristics: “police car 停在右侧”

Influence: “阻挡右车道，存在事故风险”

Hierarchical Planning（层级规划）

任务：生成具体驾驶计划，逐步输出：

Meta-actions（元动作）：如减速、右偏等操作单元

Decision：对元动作的组合解释

Waypoints：一系列（x， y）点构成的未来轨迹

这些输出频率较低，因推理复杂，称为“Low Frequency”。

2.2.2 DriveVLM-Dual

DriveVLM-Dual 将 DriveVLM 结果作为提示或指导，结合传统的三维感知、运动预测、轨迹规划模块，这 3 个模块的作用分别是：

3D Perception：将图像中识别的关键目标，与 3D 检测器匹配，提升空间定位精度。

Motion Prediction：传统模块预测周围目标未来动作。

Trajectory Planning：结合 VLM 给出的参考轨迹（如 Waypoints），进行高频实时细化。

2.2.3 Trajectory Refinement

视觉语言模型（VLM）虽然擅长理解复杂场景，但存在两大弱点：

推理慢：不能实时运行（比如每秒几次）；

空间精度不高：输出轨迹点是基于语言生成的，易产生偏差。

而传统路径规划模块（如基于优化或神经网络）虽然推理快，但缺乏全局语义理解能力。因此，需要一种“慢→快”的协同机制来连接两者，Trajectory Refinement 就是这个桥梁。

Trajectory Refinement 是 DriveVLM-Dual 系统中的一个关键环节，用于提升路径规划的精度与实时性，其本质是使用 DriveVLM（慢系统）输出的粗略轨迹作为参考，引导传统自动驾驶模块（快系统）进行高频率、实时的精细轨迹生成。

Trajectory Refinement 的流程可以用以下公式描述：

在这里插入图片描述

2.3 端到端+VLM 在量产中的不足

虽然 DriveVLM-Dual 系统解决了部分问题，但是在实际量产中发现了诸多不足，如下所示：

虽然可以通过异步联合训练让端到端和 VLM 协同工作，但是由于他们是两个独立的模型且运行频率不同，所以在做联合训练和优化是非常困难的；

其次，VLM 模型是基于开源的 LLM 大语言模型，使用了海量的互联网二级图文数据做预训练，导致其在 3D 空间理解和驾驶知识方面是有所不足。尽管可以通过一些后训练手段进行弥补，但是它的上限仍然不是很高；

自动驾驶芯片如 Orin-X 和 Thor-U 的内存带宽和算力是不及 GPU 服务器的，如何进一步提升模型的参数量和能力，同时还能实现在高效的推理，这是个巨大的挑战；

目前驾驶行为的学习更多依赖于 transformer 进行回归建模，但是这种方法难以处理人类驾驶行为的多模态性，这里的多模态性是指在相同的场景下，不同人的选择是不同的，同样一个人在不同精神状态下的驾驶行为也是不同的。

四、参考资料

理想全新一代智驾 VLA 技术方案解读

理想贾鹏 GTC 2025 演讲 PPT

理想贾鹏 GTC 2025 讲 VLA 完整视频

DriveVLM

om/video/BV11yX5Y9EEj/?vd_source=115911bd71b74bfcc0cad43e576887e4)

DriveVLM

在这样的动机下，理想汽车提出了新一代智驾方案：MindVLA，我们在下一篇文章将详细进行介绍，敬请期待！！！

查看全文

http://www.dtcms.com/a/283890.html

113：路径总和 II

Go语言时间控制：定时器技术详细指南

uni-app 配置华为离线推送流程

Go语言高并发聊天室（三）：性能优化与压力测试

【物联网】基于树莓派的物联网开发【11】——树莓派无法启动修复解决方案

Transformer从入门到精通

Spring Boot整合阿里云OSS企业级实践：高可用文件存储解决方案

【Docker基础】Docker-compose基础认知：从核心概念到实战解析

闽南话里的俗语(俚语、谚语、歇后语)

S7-1200 模拟量模块全解析：从接线到量程计算

苍穹外卖项目日记(day11)

Linux内核ICMP协议实现深度解析：网络控制的智慧引擎

《C++初阶之STL》【auto关键字 + 范围for循环 + 迭代器】

基于typescript严格模式以实现undo和redo功能为目标的命令模式代码参考

Python-TCP编程-UDP编程-SocketServer-IO各种概念及多路复用-asyncio-学习笔记

从0开始学习R语言--Day49--Lasso-Cox 回归

在UniApp中防止页面上下拖动的方法

git@github.com: Permission denied (publickey).

算法竞赛备赛——【图论】求最短路径——Dijkstra

排序算法—交换排序（冒泡、快速）（动图演示）

uniapp问题总结

并发事务~

一种融合人工智能与图像处理的发票OCR技术，将人力从繁琐的票据处理中解放

视频安全新思路：VRM视频分片错序加密技术

小架构step系列17：getter-setter-toString

智能视频分析：多行业安全防控的“AI之眼”

嵌入式学习-PyTorch（7）-day23

Flutter Android打包学习指南

如何下载视频（pc端任何视频均可下载）

英伟达Cosmos研究团队开源DiffusionRenderer (Cosmos): 神经逆向与正向渲染与视频扩散模型

一、前言

二、端到端+VLM 方案

2.1 快慢思考系统

2.2 端到端+VLM 方案介绍

2.2.1 DriveVLM

2.2.2 DriveVLM-Dual

2.2.3 Trajectory Refinement

2.3 端到端+VLM 在量产中的不足

四、参考资料

在这样的动机下，理想汽车提出了新一代智驾方案：MindVLA，我们在下一篇文章将详细进行介绍，敬请期待！！！

相关文章：