当前位置：首页 > news >正文

UAD详解

news 2025/8/25 9:25:25

1. 算法动机及开创性思路

在这里插入图片描述

现存问题：Unity AD和VAD等方法需要大量人工标注和计算资源（Unity AD需48 GPU/天，VAD需28 GPU/天），导致数据扩展成本高昂。
核心观点：感知模块的标注量和设计复杂度并非提升规划性能的关键，扩大数据量才是核心。
创新策略：
- 无监督代理任务：将需要感知标签的监督学习改为无监督方式，消除标注成本
- 自监督方向感知：通过方向感知策略进一步提升规划性能
性能优势：推理速度达7.2 FPS（Unity AD仅2.1 FPS，VAD为5.3 FPS），训练仅需21.3 GPU/天

2. 主体结构

在这里插入图片描述

流程区分：
- 黑色箭头：推理阶段专用模块
- 橙色箭头：训练阶段特有模块
输入输出：环视图像→预测轨迹

1）角度感知代理任务

检测器
- 检测方法：采用GroundingDINO（开放集检测器）
  - 开放集特性：可检测训练集未见的类别（如训练集只有猫狗，测试时能检测鸭子）
  - 类别限定：仅检测vehicle/pedestrian/barrier三类
  - 输出形式：2D检测框（非3D）
采样及bev特征图划分
- BEV转换：
  - 近大远小效应导致扇形区域（近处物体投影范围小，远处范围大）
  - 通过均匀角度划分将不规则mask转为规则区域
采样策略：
- 在BEV特征图随机采样点
- 采样点在2D框范围内置True，否则置False
- 区域内有任一True点则整个区域标记为存在物体
Dreaming decoder
- 工作原理：
  - 初始化k个角度query（与BEV特征区域对应）
  - 通过GRU实现自回归更新：
  - 交叉注意力生成下一时刻特征：
监督方式：
- 计算相邻时刻query分布的KL散度
- 时刻为先验分布（基于当前特征）
- 时刻为后验分布（含未来信息）

2）方向感知规划模块

三大组件：
- 规划头：与Unity AD相同的模仿学习轨迹预测
- 方向增强：对BEV特征旋转90°/180°/270°
- 方向一致性：
  - 预测轨迹需与旋转后的GT轨迹匹配
  - 反向旋转后的预测轨迹需与原预测一致
驾驶行为分类：
- 按主车方向划分直行/左转/右转
- 通过三分类任务增强方向感知

3. 损失函数

在这里插入图片描述

复合损失：
- Lspat：扇形区域物体存在性的二分类交叉熵
- Ldrm：Dreaming decoder的KL散度损失
- Liml：模仿学习的轨迹预测损失
- Ldir：驾驶行为（直行/左转/右转）分类损失
- Lcos：旋转增强后的一致性损失

4. 性能对比

1）开环指标对比

在这里插入图片描述

评估指标：新增了与地图边界碰撞率指标，用于检测模型是否通过违规驾驶（如压线）来避免碰撞
UAD优势：
- 在L2误差（1s/2s/3s）和碰撞率指标上全面领先
- 轻量化版本达到18.9FPS，比VAD-Tiny快3FPS
- 采用不同平均计算方式时仍保持最优性能
方法对比：
- NMP/SA-NMP仅使用检测和运动预测（L2误差2.31/2.05）
- ST-P3使用检测和地图（L2误差3.28）
- VAD系列增加运动预测（Base版L2误差1.22）
- UAD无需3D标注（L2误差0.90）

2）闭环仿真指标对比

评估指标：
- 路线完成率（Route Completion）
- 驾驶分数（Driving Score）
性能表现：
- CILRS：完成率13.4%，得分3.68
- LBC：完成率55.01%，得分7.05
- Transfuser：完成率78.41%，得分31.15
- VAD-Base：完成率87.26%，得分30.31
- UAD：完成率92.72%，得分71.63（最优）

3）Dreaming decoder消融实验

关键设计：
- BEV特征与query的循环更新机制
- 无监督代理任务（障碍物存在感知）
实验发现：
- 不加代理任务时L2误差达1.82，碰撞率1.00%
- 加入后L2降至0.90，碰撞率0.19%
- 循环更新使3s预测误差从2.74m降至1.50m

4）方向感知规划消融实验

在这里插入图片描述

组件对比：
- 仅用路径损失（Cpath）：L2误差3.18
- 增加方向损失（Cdir）：误差降至1.00
- 加入模仿损失（Cimi）：误差反弹至1.20
最优配置：
- 完整模型L2误差0.90，碰撞率0.19%
- 方向一致性使左右转场景提升显著

5）角度设计消融实验

扇形区域划分：
- 未划分时L2误差1.37，碰撞率1.37%
- 角度量化后误差降至0.90，碰撞率0.19%
效果验证：
- 证明角度敏感的特征表示对运动预测至关重要
- 与方向增强形成互补优化

6）3D检测头消融实验

实验设置：
- 对比有无3D检测头的性能差异
关键发现：
- 添加检测头导致L2误差从0.90增至0.93
- 碰撞率从0.19%上升至0.25%
- 验证了无需显式3D检测也能实现良好性能

7）不同驾驶场景下的性能

在这里插入图片描述

场景划分：
- 直行（5309样本）
- 左转（301样本）
- 右转（409样本）
结果分析：
基线方法（UniAD）：直行L2误差0.98，左转1.48
UAD*（无方向增强）：直行0.89，左转1.55
完整UAD：直行0.84，左转1.39（右转场景碰撞率下降50%）

8）nuScenes可视化

在这里插入图片描述

可视化要素：
- 绿色：GT 3D框
- 红色：GroundingDINO检测结果
BEV扇形区域物体掩码
轨迹对比：
- UAD（红）最接近GT轨迹（绿）
- UniAD（紫）会碰撞道路边界
- 验证了角度量化表征的有效性

9）Carla仿真可视化

典型场景：
- ST-P3（黄）轨迹停在人行道
- Transfuser（蓝）会碰撞行人
- UAD动态调整：行人通过后才继续行驶
方法优势：
- 避免使用人工标注的3D检测标签
- 通过方向增强提升复杂场景表现
- 计算效率优化（Base版7.2FPS）

http://www.dtcms.com/a/347174.html

相关文章：

分库分表系列-核心内容

知识蒸馏 Knowledge Distillation 概率链式法则（Probability Chain Rule）

Class42时序模型

深度学习开篇

【通俗易懂】TypeScript 的类型守卫 (Type Guards)作用理解

iperf2 vs iperf3：UDP 发包逻辑差异与常见问题

[新启航]白光干涉仪与激光干涉仪的区别及应用解析

ubuntu 新登录修改root密码

【攻防世界】Web_php_include

力扣热题之动态规划

CryptSIPVerifyIndirectData函数分析

鸿蒙开发进阶（HarmonyOS）

STM32 外设驱动模块八：红外反射式光电模块

【大语言模型 15】因果掩码与注意力掩码实现：深度学习中的信息流控制艺术

2-5.Python 编码基础 - 键盘输入

2025钉钉十周年新品发布会，新品 “蕨”命名,到底是什么?

vue3 - 组件间的传值

nodejs和vue安装步骤记录

【Golang】有关任务窃取调度器和抢占式调度器的笔记

机器人 - 无人机基础(5) - 飞控中的传感器(ing)

【大语言模型 16】Transformer三种架构深度对比：选择最适合你的模型架构

云原生俱乐部-k8s知识点归纳（8）

资深产品经理个人能力提升方向：如何系统化进阶并考取高价值证书？

资深产品经理个人能力提升方向：如何系统化进阶与考证规划

可视化-模块1-HTML-02

Node.js特训专栏-实战进阶：23. CI/CD流程搭建

国产轻量级桌面GIS软件Snaplayers从入门到精通（21）

复杂街景误检率↓79%！陌讯动态融合算法在街道垃圾识别的边缘计算优化

Text2SQL、ChatBI简介

AI agent开发与大模型工程师面试复习纲要与高频面试题答案（4）-- AI agent系统设计与项目实践