当前位置: 首页 > news >正文

UniAD

1. 算法动机及开创性思路

1)UniAD算法简介

  • 算法全称:Planning-oriented Autonomous Driving
  • 核心特点:
    • 统一框架整合感知、预测、规划模块
    • CVPR 2023最佳论文
    • 采用查询(query)方式连接各模块
  • 名称含义:
    • Unified:统一多模块的联合框架
    • AD:自动驾驶(Autonomous Driving)

2)算法动机

  • 传统方案问题:
    • 独立模型方案:各任务独立网络导致信息丢失、错误累积、特征不对齐
    • 多任务学习方案:任务间负迁移(对任务A有利的特征可能损害任务B)
    • 早期端到端方案:
      • 直接规划方案:缺乏安全保障和可解释性
      • 简单模块组合:未充分验证模块有效性

3)开创性思路

  • 研究创新:
    • 首个全面整合感知、预测、规划的联合训练框架
    • 采用Transformer查询机制连接模块
  • 技术优势:
    • 查询机制:相比CNN具有更大感受野,减少上游误差累积
    • 规划导向:所有子模块服务于最终规划决策
    • 特征对齐:通过统一框架解决特征misalignment问题

2. 主体结构

1)UniAD整体结构

在这里插入图片描述

  • 模块组成:
    • 特征提取与转换
    • 感知模块(跟踪+建图)
    • 预测模块(运动+占据)
    • 规划模块

2)输入与输出

  • 输入:多视角视觉图像(纯视觉方案)
  • 输出:自车运动轨迹(Ego-vehicle Query)

3)特征提取与转换

  • BEV Former技术:
    • 主车中心划定区域,网格化处理
    • Z轴划分4个格子
    • 通过deformable attention获取特征
    • 融合前一帧BEV特征

4)感知模块

  • 跟踪模块
    在这里插入图片描述

    • 双任务设计:
      • 目标检测:采用Deformable DETR
        • 学习参考点offset降低计算量
      • 多目标跟踪:采用MOTR
        • 解决物体消失/出现的问题
        • 动态切换检测/跟踪query
  • 建图模块
    在这里插入图片描述

    • 全景分割:
      前景:实例分割(车道/人行道)
      背景:语义分割(可行驶区域)

    • 查询改造:
      Thing queries → 车道边界/人行横道
      Stuff queries → 可行驶区域

5)预测模块

  • 运动预测
    在这里插入图片描述

    • 输入特征:
      • 当前物体位置(来自跟踪模块)
      • 6类典型轨迹(K-means聚类得到)
      • 自车坐标系/全局坐标系轨迹
      • 上层输出轨迹
    • 三路交互:
      • Agent-Agent:历史轨迹交互
      • Agent-Map:交通规则约束
      • Agent-BEV:环境特征交互
  • 占据预测
    在这里插入图片描述

    • 时序预测:
      • 输入:跟踪特征+运动预测特征+位置特征
      • 输出:t0-t4五帧占据概率
    • 特征处理:
      • BEV特征1/4下采样→1/8下采样
      • 交叉注意力机制生成mask
      • MLP解码得到最终概率

6)规划模块

在这里插入图片描述

  • 输入组成:
    • 导航指令(如"左转")
    • BEV特征
    • Ego-vehicle查询(交互特征)
    • MotionFormer特征
  • 轨迹优化:
    • 推理阶段使用牛顿法优化
    • 考虑占据预测结果避障

3. 损失函数

在这里插入图片描述

  • 两阶段训练:
    • 阶段一:仅训练感知模块
    • 阶段二:全模块训练
  • 规划损失:
    • 轨迹点回归损失
    • 碰撞损失(避障约束)
  • 运动预测:
    • 6模态轨迹分类损失
    • 轨迹回归损失

4. 性能对比

1)整体性能消融实验

  • 模块交互性:上游模块对下游模块有正向影响,同时下游模块也会反哺上游模块性能提升
  • 追踪模块表现:AMOTAT、AMOTPI、Recall三个指标在完整模型下均达到最高分
  • 建图模块特点:单独建图模块性能优于多任务干扰下的建图性能
  • 运动预测最佳状态:在没有规划模块时,minADE、minFDE、MR三个指标达到最佳
  • 规划模块效果:完整模型下L2 loss和碰撞率达到最优平衡

2)建图性能

在这里插入图片描述

  • 车道线检测优势:UniAD在车道线检测指标(Lanest)上达到31.3,显著优于LSS(18.3)和VPN(18.0)
  • 多任务平衡:虽然单独建图模块性能更好,但完整系统在可行驶区域(Drivablet)等指标上取得69.1的平衡表现
  • 模块协同效应:下游规划模块会反向提升建图模块的交叉口识别能力(Crossingt 13.8)

3)运动预测对比

  • 绝对优势:minADE(0.71m)和minFDE(1.02m)远超第二名的PnPNet(1.15m/1.95m)
  • 对比基准:优于恒定位置(5.80m/10.27m)和恒定速度(2.13m/4.01m)预测方法
  • 关键指标:MR(0.151)和EPAT(0.456)显示其预测轨迹更符合人类驾驶习惯

4)占据预测对比

在这里插入图片描述

  • 双指标领先:在IoU-n.t(63.4)和VPQ-n.(54.7)两个核心指标上最佳
  • 模块贡献度:
    Cross Attention交互模块使IoU-n.提升1.4%
    Mask特征融合模块使VPQ-n.提升1.2%
    非线性优化策略最终将综合性能提升至最优

5)规划对比

在这里插入图片描述

  • 轨迹精度:3秒平均L2误差(1.03m)比第二名FF(1.43m)降低28%
  • 安全性:平均碰撞率(0.31%)显著低于ST-P3(0.71%)等传统方法
  • 实时性:在狭窄道路场景仍能保持1.65m的3秒轨迹误差

6)可视化效果展示

在这里插入图片描述

  • 指令响应:前进指令时关注前方道路区域,左转指令时注意力明显左移
  • 多视角融合:六摄像头输入与BEV视角的规划轨迹保持空间一致性
  • 异常处理:即使感知模块暂时丢失障碍物(2帧),规划模块仍能通过特征关注避免碰撞

7)失败案例分析

在这里插入图片描述

  • 尺寸估计误差:对大型拖车(长12m+)的尺寸和角度估计存在明显偏差
  • 环境敏感性:黑暗环境中对逆向车辆产生过度避让(实际可保持直线行驶)
  • 改进方向:调整碰撞损失权重和道路边界约束可缓解30%的异常规划
http://www.dtcms.com/a/346961.html

相关文章:

  • 电容反射特性
  • Linux netfilter工作原理详解
  • Spring Boot 整合网易163邮箱发送邮件实现找回密码功能
  • 数据库MVCC是什么
  • 每日算法题【链表】:链表的中间节点、返回倒数第k个节点、合并两个有序链表
  • Git checkout 与 Git reset 核心区别解析(分支与版本关联逻辑)
  • C语言初学者笔记【动态内存管理】
  • 在WSL2 Ubuntu中部署FastDFS服务的完整指南
  • Elasticsearch底层存储原理
  • Codeforces Round 1043 (Div. 3)(A-E)
  • 数据库优化提速(三)JSON数据类型在酒店管理系统搜索—仙盟创梦IDE
  • jetson ubuntu 打不开 firefox和chromium浏览器
  • 非线性规划学习笔记
  • SpringBootWeb入门
  • 力扣(全排列)
  • 生成模型 | 扩散模型损失函数公式推导
  • Go语言数据结构与算法-基础数据结构
  • 《WinRAR》 [7.12] [x64] 烈火版 下载
  • 数据结构的线性表:顺序表
  • piecewise jerk算法介绍
  • 2025年音乐创作大模型有哪些?国内国外模型汇总以及优点分析
  • 高阶数据结构---ST表
  • 同类软件对比(一):Visual Studio(IDE) VS Visual Studio Code
  • [CISCN2019 华北赛区 Day1 Web5]CyberPunk
  • MySQL存储过程入门
  • OCR、文档解析工具合集(下)
  • MySQL InnoDB引擎
  • STM32F1 SysTick介绍及应用
  • Nacos-12--扩展:@RefreshScope和@ConfigurationProperties实现热更新的原理
  • PHP - 线程安全 - 疑问与答案