DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model
一、研究背景与创新点
(一)现有方法的局限性
当前智驾系统面临两大核心挑战:一是长尾问题,即系统在遇到新场景时可能失效,例如突发交通状况或非常规道路环境;二是可解释性问题,传统方法无法解释智驾系统的决策过程,用户难以理解车辆行为的依据。传统语言模型(如 BERT)因缺乏灵活性、泛化性且不支持视觉模态,无法提供合适的解释。
(二)DriveGPT4 的创新思路
- 多模态大模型应用:提出 DriveGPT4 模型,实现可解释的端到端智驾。该模型可处理视频、文本和控制信号等多模态输入,生成车辆的解释性语言与低级别控制信号(如速度、转向角度),形成从感知到控制的闭环。
- 视觉指令调优数据集构建:通过 ChatGPT 生成多样化的指令调优数据集(BDD-X),增强模型在智驾领域的性能。数据集包含视频帧、控制信号、文本注释(行为描述与理由)及问答对,覆盖多种驾驶场景。
- 实验验证:在 BDD-X 数据集上对 DriveGPT4 进行评估,结果表明其在可解释性和控制信号预测方面显著优于传统方法。