当前位置：首页 > news >正文

华中科大联手小米推出ReCogDrive：自动驾驶迎来“认知革命”！

news 2025/8/28 7:05:35

1.【前言】

在开放道路中实现安全、平稳、泛化的自动驾驶，是智能交通领域的“圣杯”。尽管近年来 端到端自动驾驶（End-to-End Autonomous Driving, E2E-AD） 框架（如 UniAD、VAD）在 NuScenes 等基准中展现出优异表现，但它们在真实世界的 长尾场景（复杂路口、罕见交通模式、极端天气）中仍然表现不佳：要么轨迹预测失真，要么决策鲁棒性不足。

与此同时，研究者们开始尝试将 视觉-语言模型（Vision-Language Models, VLMs） 引入自动驾驶，希望借助其强大的知识库和泛化能力来增强驾驶决策。但现实问题在于：

VLMs 训练于互联网数据，缺乏驾驶领域知识；
离散的文本输出无法直接映射到车辆需要的连续控制空间；
大多数方法依赖模仿学习，难以摆脱“次优解”的困境。

为解决这些瓶颈，来自 华中科技大学 & 小米汽车 的研究团队提出了 ReCogDrive ——首个融合视觉-语言推理与强化学习优化的开源认知型自动驾驶框架。它结合了 VLM 的认知泛化能力、扩散模型的轨迹生成能力 与 模拟器辅助的强化学习优化，在 NAVSIM 基准测试 上实现 PDMS 90.5，比现有纯视觉方案提升 6.5 分，树立了新的 SOTA 标杆。

点击阅读原文，获取更多前沿咨询

论文基本信息

论文题目： ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving
论文链接：https://arxiv.org/abs/2506.08052
代码链接: https://github.com/xiaomi-research/recogdrive
高质量驾驶QA数据集链接: https://huggingface.co/datasets/owl10/ReCogDrive_Pretraining
模型链接：https://huggingface.co/owl10/ReCogDrive

2.【创新点概述】

可扩展的认知预训练
ReCogDrive 构建了一个 310 万条高质量驾驶问答对 的训练语料，这是目前规模最大的驾驶认知数据集。通过融合 12 个开源驾驶数据集与自动标注流水线生成的数据，模型学会了对驾驶场景的语义理解与解释能力。
语言到动作的扩散式桥梁
不同于直接让 VLM 输出轨迹，ReCogDrive 在 VLM 的高层次特征与车辆的连续控制空间之间，引入了一个 扩散式轨迹规划器。它逐步从噪声中“去噪”出平滑轨迹，解决了语言空间与动作空间的不匹配问题。研究团队采用 LightningDiT 架构，结合 RMSNorm、RoPE 和 SwiGLU-FFN 等前沿技术，使轨迹生成更稳定、更高效。
模拟器辅助的强化学习
为避免模仿学习的“平均轨迹陷阱”，ReCogDrive 创新性地利用 NAVSIM 仿真器 作为奖励反馈，基于碰撞率、舒适度等指标进行强化微调。这样，模型能在探索中逐步优化策略，生成更安全、更类人的驾驶行为。

3.【整体架构流程】

由于通用多模态大模型大多在互联网的图文数据上完成预训练，缺乏与驾驶相关的知识与经验，直接应用于驾驶轨迹预测往往存在困难。为此，ReCogDrive 首先构建了一个规模高达 310 万条的驾驶问答数据集，让模型能够在真实的交通语境中习得认知能力。其中，研究团队从 12 个开源驾驶数据集收集数据，经过归一化、统一格式、重新标注和质量筛选，最终保留下 230 万条高质量问答对。同时，团队还搭建了一个自动标注流水线，结合 Qwen2.5-VL 与数据集标签，自动生成了涵盖场景描述、关键物体识别和规划解释等任务的问答数据，并引入 LLaVA 指令调优数据，以确保模型在具备驾驶认知的同时，依然保持良好的指令遵循能力。

在模型架构上，ReCogDrive 采用了 InternVL3-8B 作为基础模型。该模型以“原生多模态预训练”范式为核心，在多个基准测试中表现出色。每张图像会被划分为多个图块并配合缩略图输入 InternViT 编码器，经 pixel shuffle 压缩后形成紧凑的视觉 Token，再与文本 Token 融合输入大语言模型。经过在这 310 万条混合数据上的微调，ReCogDrive 的多模态大模型不仅能够生成未来的驾驶轨迹，还能同时给出场景描述和规划解释，从而在轨迹预测之外，提供更加全面和可解释的驾驶认知能力。

虽然视觉语言大模型可以直接以自回归的方式生成轨迹，但由于动作空间与语言空间之间存在巨大的差异，这种方法在自动驾驶中有天然的限制。一方面，多模态大模型并不擅长数值级别的精确预测；另一方面，它们偶尔还会出现“幻觉”，生成与现实不符的结果，这在安全要求极高的驾驶场景中是难以接受的。

为了解决这一问题，ReCogDrive 借鉴了具身智能领域 π0 和 GR00T-N1 等工作的思路，引入了基于扩散模型的轨迹规划器，作为语言与动作之间的桥梁。该规划器从高维语义特征空间出发，将噪声轨迹逐步解码为平滑、稳定的驾驶轨迹。在这一过程中，它会同时考虑三类关键信息：自车的历史轨迹、视觉语言模型生成的高层语义特征，以及驾驶环境中的全局上下文。通过对这些信息的整合，轨迹规划器能够更好地理解复杂交通场景，并输出符合实际驾驶规律的连续轨迹。

在网络结构上，ReCogDrive 使用了改进版的 LightningDiT 模块，它通过 AdaLayerNorm 显式引入自车状态和时间因素，再结合交叉注意力机制吸收视觉语言模型的输出特征。最终，轨迹解码器将高维表示转化为连续的轨迹点，使得生成的驾驶轨迹不仅平滑自然，而且兼具语义一致性和物理合理性。训练过程中，团队采用了扩散式的去噪优化策略，使模型能够逐步提升轨迹的质量和稳定性。

仅依赖模仿学习进行训练存在局限性，因为同一个场景可能存在很多条不相同的专家轨迹，导致优化到次优的轨迹，如图（a）所示，在一个交叉路口转弯场景中，存在多条专家轨迹，模型倾向于学习平均轨迹以实现全局最优，最终可能导致错误或不安全的行驶。

更符合人类学习驾驶的方式是让模型在一个驾驶环境中自主驾驶，模拟真实世界的学习过程，但构建具有交互式的真实场景闭环仿真器非常困难，因此ReCogDrive使用 NAVSIM 非交互式的仿真器评估碰撞、舒适度等指标，来进行强化学习训练。 强化学习训练过程如下：

扩散策略 $πθ\pi_\theta$ 可视为从高斯噪声逐步去噪生成动作序列的马尔可夫决策过程，具体地，ReCogDrive首先采样 $G$ 条轨迹，获取其扩散去噪链：

$x=(xT,xT−1,…,x0),\mathbf{x} = \bigl(x_T,\,x_{T-1},\,\dots,\,x_0\bigr),$

其中 $T$ 是去噪步骤总数，对于该链：

$xT∼N(0,I),xt−1∼πθ(xt−1∣xt),t=T,T−1,…,1.x_T \sim \mathcal{N}(0, \mathbf{I}), \qquad x_{t-1} \sim \pi_\theta\bigl(x_{t-1}\mid x_t\bigr), \quad t = T, T-1, \dots, 1.$

这些轨迹在 NAVSIM 仿真器中执行，仿真器根据碰撞情况、行驶区域合规性及驾驶舒适度给出驾驶评分（PDMS），作为奖励 $r_i$ 。随后计算组内标准化优势：

$A^i=ri−mean(r1..G)var(r1..G),i=1,…,G.\hat A_{i} \;=\; \frac{r_i - \mathrm{mean}\bigl(r_{1..G}\bigr)}{\sqrt{\mathrm{var}\bigl(r_{1..G}\bigr)}}, \quad i=1,\dots,G.$

扩散链中每一步的条件策略符合高斯分布：

$πθ(xt−1∣xt)=N⁣(xt−1;μθ(xt,t),σt2I),\pi_\theta\bigl(x_{t-1}\mid x_t\bigr) = \mathcal{N}\!\Bigl(x_{t-1};\,\mu_\theta(x_t,t),\,\sigma_t^2 I\Bigr),$

其中 $μθ(xt,t)\mu_\theta(x_t,t)$ 是模型预测的均值， $σt2I\sigma_t^2 I$ 是固定协方差。

因此，完整链条 $x0:T\mathbf{x}_{0:T}$ 在策略 $πθ\pi_\theta$ 下的对数策略概率为：

$log⁡πθ(x0:T)=∑t=1Tlog⁡πθ(xt−1∣xt).\log \pi_\theta\bigl(\mathbf{x}_{0:T}\bigr) = \sum_{t=1}^T \log \pi_\theta\bigl(x_{t-1}\mid x_t\bigr).$

最后，ReCogDrive参考 REINFORCE、RLOO、GRPO 等算法计算策略损失，同时引入行为克隆损失以防止探索过程中模型崩溃。

$L=−1G∑i=1G1T∑t=1Tγt−1log⁡πθ(xt−1(i)∣xt(i))A^i⏟LRL−λ1G∑i=1G1T∑t=1Tlog⁡πθ(x~t−1(i)∣x~t(i))⏟LBC,L \;=\; \underbrace{-\frac{1}{G}\sum_{i=1}^G\frac{1}{T}\sum_{t=1}^T \gamma^{\,t-1}\,\log \pi_\theta\bigl(x_{t-1}^{(i)}\mid x_t^{(i)}\bigr)\,\hat A_{i}}_{L_{\mathrm{RL}}} \;-\; \underbrace{\lambda\;\frac{1}{G}\sum_{i=1}^G\frac{1}{T}\sum_{t=1}^T \log \pi_\theta\bigl(\tilde x_{t-1}^{(i)}\mid \tilde x_t^{(i)}\bigr)}_{ L_{\mathrm{BC}}},$

其中， $γ\gamma$ 是用于缓解去噪初期不稳定性的折扣因子， $λ\lambda$ 是行为克隆损失的权重， $x~t−1,x~t\tilde x_{t-1}, \tilde x_t$ 是从参考策略 $πref\pi_{\mathrm{ref}}$ 中采样的值，折扣因子和行为克隆损失权重对于模型训练效果都非常重要。

4.【实验结果】

实验在 NAVSIM 基准 上展开，评价指标包括：PDMS 分数、碰撞率、驾驶舒适度、效率等。

表1 展示了ReCogDrive的方法与现有方法在 NAVSIM 数据集上的比较结果。ReCogDrive 实现了 90.5 的 PDMS，超过了 DiffusionDrive 等 SOTA 模型。而且，ReCogDrive仅使用前视相机数据，ReCogDrive 依然比同时使用相机和激光雷达输入的 DiffusionDrive 和 WoTE 分别高出 2.4 和 2.2 的 PDMS。此外，相比ReCogDrive复现的 InternVL3 $†^{\dagger}$ 和 QwenVL2.5 $†^{\dagger}$ 这两个直接在 NAVSIM 轨迹上训练的基线方法，ReCogDrive 的 PDMS 提高了 7.2，展示了ReCogDrive方法的有效性。同时，它还比纯视觉方案的 SOTA 模型 PARA-Drive 高出 6.5 的 PDMS。

整体性能：ReCogDrive 在 PDMS 上达到 90.5，显著超越现有视觉 E2E 方法（提升 6.5 分）。
复杂场景下的稳健性：ReCogDrive 的碰撞率显著下降，轨迹更接近人类驾驶风格。

表2 展示了ReCogDrive方法中各个关键组件的消融实验结果，当仅在NAVSIM轨迹数据上训练时，模型的PDMS为83.3，在此基础上，结合ReCogDrive的大规模驾驶问答数据对视觉语言大模型进行驾驶场景适应后，PDMS提高了2.9，引入扩散模型规划器以实现连续轨迹预测，进一步提升了0.6的PDMS，最后，通过引入模拟器辅助的强化学习，PDMS提升至90.5，增加了3.7，验证了ReCogDrive强化学习在提升驾驶安全性方面的有效性。

如图所示，可视化展示了ReCogDrive在 NAVSIM 上的感知与规划的能力。除了生成平滑的轨迹预测外，ReCogDrive 还能输出描述性的场景总结和高层次的驾驶指令。它能够准确识别关键物体，如出租车和红绿灯等。