深度学习在自动驾驶上应用(二)
《FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving》
🔹 研究动机
-
现有自动驾驶中的 视觉语言模型 (VLMs) 常通过 文本 Chain-of-Thought (CoT) 来推理,但这种方法高度抽象,容易造成:
- 时空关系模糊(难以捕捉车辆与环境的动态交互)
- 细粒度信息丢失(如车道、障碍物的空间关系)
- 模态转换鸿沟(视觉 → 文本 → 推理,过程不自然)
-
人类驾驶员往往是 直接想象未来场景的视觉图景,而不是将其转化为语言再推理。
-
作者提出:自动驾驶更应基于 视觉化的“模拟与想象” 来进行推理,而非仅依赖符号化的语言逻辑。
🔹 方法(FSDrive 框架)
论文提出 FSDrive,核心创新点是 时空视觉链式推理 (Spatio-Temporal CoT):
-
统一预训练范式
- 结合视觉理解 (VQA) 和视觉生成 (未来帧预测),激活 VLM 的图像生成能力。
- 在不大改架构的前提下,将图像 token 加入词表,使模型能同时预测文字与图像。
-
渐进式视觉生成 (Progressive CoT)
- 先生成 粗粒度物理约束(车道线、3D检测框),确保物理合理性。
- 再生成 完整未来帧,补充细节。
-
时空 CoT 推理
-
用统一图像帧表示未来世界状态:
- 空间关系:未来车道线 + 3D目标框
- 时间关系:未来普通帧(展示动态演化)
-
将此作为中间推理步骤,使模型能作为 逆动力学模型,在观测与未来预测的基础上规划轨迹。
-
-
训练策略
-
两阶段:
- 阶段 1:统一预训练(VQA + 未来帧生成 + 渐进式 CoT)。
- 阶段 2:有监督微调(场景理解 + 轨迹规划)。
-
🔹 实验
-
数据集:nuScenes(轨迹规划 & 未来帧生成),DriveLM(场景理解)。
-
指标:
- 轨迹规划:L2 误差、碰撞率
- 生成:FID(图像质量)
- 场景理解:BLEU、ROUGE、CIDEr、ChatGPT评分
-
主要结果:
- 轨迹规划性能超过现有 SOTA(如 UniAD、Doe-1、OminiDrive),在 L2 和碰撞率上均优。
- 未来帧生成:比 diffusion-based 方法接近甚至更优,FID=10.1(优于 Doe-1 的15.9)。
- 场景理解:在 DriveLM 上综合得分领先 OminiDrive。
- 消融实验表明:
- 时空 CoT 比文本/图文 CoT 在避免碰撞率方面显著提升(降低 31%)。
- 渐进式生成 明显提升未来帧质量。
- VQA + 未来帧联合预训练能增强物理规律建模。
🔹 结论
- FSDrive 首次提出 视觉化时空 CoT 推理,使模型“像人类一样用画面思考”。
- 将 VLM 同时作为 世界模型(预测未来)和 逆动力学模型(规划轨迹),建立端到端的视觉推理管道。
- 实验证明:FSDrive 在规划、生成、理解三方面都取得了新的 SOTA 性能。
- 局限性:目前仅预测前视图,未来可扩展到 360° 全景;此外还需考虑伦理与实时性问题。