当前位置: 首页 > news >正文

深度学习在自动驾驶上应用(二)

《FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving》

🔹 研究动机

  • 现有自动驾驶中的 视觉语言模型 (VLMs) 常通过 文本 Chain-of-Thought (CoT) 来推理,但这种方法高度抽象,容易造成:

    • 时空关系模糊(难以捕捉车辆与环境的动态交互)
    • 细粒度信息丢失(如车道、障碍物的空间关系)
    • 模态转换鸿沟(视觉 → 文本 → 推理,过程不自然)
  • 人类驾驶员往往是 直接想象未来场景的视觉图景,而不是将其转化为语言再推理。

  • 作者提出:自动驾驶更应基于 视觉化的“模拟与想象” 来进行推理,而非仅依赖符号化的语言逻辑。

🔹 方法(FSDrive 框架)

论文提出 FSDrive,核心创新点是 时空视觉链式推理 (Spatio-Temporal CoT)

  1. 统一预训练范式

    • 结合视觉理解 (VQA) 和视觉生成 (未来帧预测),激活 VLM 的图像生成能力。
    • 在不大改架构的前提下,将图像 token 加入词表,使模型能同时预测文字与图像。
  2. 渐进式视觉生成 (Progressive CoT)

    • 先生成 粗粒度物理约束(车道线、3D检测框),确保物理合理性。
    • 再生成 完整未来帧,补充细节。
  3. 时空 CoT 推理

    • 用统一图像帧表示未来世界状态:

      • 空间关系:未来车道线 + 3D目标框
      • 时间关系:未来普通帧(展示动态演化)
    • 将此作为中间推理步骤,使模型能作为 逆动力学模型,在观测与未来预测的基础上规划轨迹。

  4. 训练策略

    • 两阶段:

      • 阶段 1:统一预训练(VQA + 未来帧生成 + 渐进式 CoT)。
      • 阶段 2:有监督微调(场景理解 + 轨迹规划)。

🔹 实验

  • 数据集:nuScenes(轨迹规划 & 未来帧生成),DriveLM(场景理解)。

  • 指标

    • 轨迹规划:L2 误差、碰撞率
    • 生成:FID(图像质量)
    • 场景理解:BLEU、ROUGE、CIDEr、ChatGPT评分
  • 主要结果

    • 轨迹规划性能超过现有 SOTA(如 UniAD、Doe-1、OminiDrive),在 L2 和碰撞率上均优。
    • 未来帧生成:比 diffusion-based 方法接近甚至更优,FID=10.1(优于 Doe-1 的15.9)。
    • 场景理解:在 DriveLM 上综合得分领先 OminiDrive。
    • 消融实验表明:
      • 时空 CoT 比文本/图文 CoT 在避免碰撞率方面显著提升(降低 31%)。
      • 渐进式生成 明显提升未来帧质量。
      • VQA + 未来帧联合预训练能增强物理规律建模。

🔹 结论

  • FSDrive 首次提出 视觉化时空 CoT 推理,使模型“像人类一样用画面思考”。
  • 将 VLM 同时作为 世界模型(预测未来)和 逆动力学模型(规划轨迹),建立端到端的视觉推理管道。
  • 实验证明:FSDrive 在规划、生成、理解三方面都取得了新的 SOTA 性能。
  • 局限性:目前仅预测前视图,未来可扩展到 360° 全景;此外还需考虑伦理与实时性问题。
http://www.dtcms.com/a/406426.html

相关文章:

  • OpenLayers地图交互 -- 章节十二:键盘平移交互详解
  • Unity 透视摄像机视野适配不同分辨率的屏幕
  • 可持续金融的新范式:拆解欧盟ESG监管体系及其全球影响力
  • 【数据保护】一种安全高效的全匿踪纵向联邦学习方法
  • 阿里云物联网平台seo站外优化平台
  • 网站开发软件 手机网站做app有什么意义
  • WorldSimBench: 迈向作为世界模拟器的视频生成模型——论文解读
  • 嵌入式 - 内核驱动1 - 配置linux驱动
  • 工作中学习自己的Qt知识误区-Version3
  • C#连接达梦(DM)数据库
  • 服务器独立显卡可以亮机但进不了系统怎么办
  • 超高密度2kW GaN基低压电机驱动器的设计
  • 「日拱一码」100 机器学习辅助定向进化MLDE
  • C++项目:仿muduo库高并发服务器------EventLoop模块的设计
  • 电子商务网站开发综合实训报告h5页面制作工具包括
  • 全栈信创+AI大模型:百分点科技BD-OS重塑数据治理基座
  • 时隔一天第二阶段他来了 html!!!!!!!!!!!
  • [创业之路-596]:半导体生产中所需要光源的上下游产业链
  • spring-ai简单示例
  • sqlsugar sqlite
  • IP 授权管理标识:守护 IP 价值,解锁商业新可能
  • 深度学习学习路线图:从MNIST到MobileNetV4,从理论到实践的完整指南——基础理论与经典模型实践
  • C++项目:仿muduo库高并发服务器-------poller模块
  • 建设项目审批后公示在哪个网站国内重大新闻2022
  • 联雅网站建设公司谷城网站定制
  • Rust语言入门难,难在哪?所有权、借用检查器、生命周期和泛型介绍
  • 告别轮询!WebSocket 实战宝典:构建高效实时应用的完整解决方案
  • 【rust】: use of unstable library feature ‘os_str_display‘
  • seo如何根据网站数据做报表视频号推广方法
  • 政务网站队伍建设情况wordpress主题更改