环境感知模型
环境感知模型
- 一、 按任务类型划分
- 1. 2D目标检测
- 2. 语义分割
- 3. 实例分割
- 4. 3D目标检测
- 5. 车道线检测
- 二、 按技术范式划分
- 1. BEV感知
- 2. Occupancy Networks
- 3. 端到端自动驾驶
- 总结与关系图
一、 按任务类型划分
这是最经典的分类方式,根据模型要解决的具体问题来划分。
1. 2D目标检测
- 任务:在图像中找到所有特定类别的物体(如车、人),并用2D矩形框标记出来。
- 核心输出:
[x_min, y_min, x_max, y_max, class, confidence] - 经典模型:
- YOLO系列:速度快,兼顾精度,是工业界的宠儿。
- Faster R-CNN:两阶段检测的经典,精度高,速度稍慢。
- SSD:单阶段检测,在速度和精度间取得了良好平衡。
- 在智驾中的作用:主要用于障碍物存在性判断和粗略定位,是更高级任务的基础。例如,触发前方碰撞预警。
2. 语义分割
- 任务:对图像中的每一个像素进行分类,将其划分到预定义的类别(如天空、道路、车辆、行人)。
- 核心输出:一张与输入图像同尺寸的分割图,每个像素都有其类别标签。
- 经典模型:
- U-Net:编码器-解码器结构,在医学影像和自动驾驶中应用广泛。
- DeepLab系列:使用了空洞卷积和ASPP模块,能更好地捕捉多尺度上下文信息。
- 在智驾中的作用:可行驶区域分割、车道线分割、高精地图矢量化生产的前置步骤。它提供了非常精细的环境理解。
3. 实例分割
- 任务:语义分割的升级版,它不仅要区分像素的类别,还要区分不同的物体实例。比如,能分出“车A”、“车B”、“车C”,而语义分割只会把所有车都归为“车辆”这一类。
- 核心输出:为每个独立的物体实例生成一个分割掩码。
- 经典模型:
- Mask R-CNN:在Faster R-CNN基础上增加了一个分割分支,是实例分割的奠基性工作。
- 在智驾中的作用:当需要精确知道每个障碍物的轮廓时(如近距离切割、不规则物体),实例分割非常有用。
4. 3D目标检测
- 任务:检测物体在三维物理空间中的位置和姿态,输出3D边界框。
- 核心输出:
[x, y, z, length, width, height, yaw, class](中心点坐标、尺寸、偏航角) - 数据源:
- 基于LiDAR:直接处理点云数据。模型如 PointPillars, VoxelNet, PointRCNN。精度高,是SparseOd的典型实现方式。
- 基于视觉:通过单目或双目图像估计3D信息。您之前问到的Mono就属于这一类。
- 多传感器融合:结合相机和LiDAR的优势,是未来的主流方向。模型如 MV3D, FusionPainter。
- 在智驾中的作用:精准的空间定位和碰撞风险评估,是规划控制的直接输入。
5. 车道线检测
- 任务:专门用于检测道路上的车道标记。
- 技术演进:
- 基于图像分割:将车道线像素分割出来,然后通过后处理拟合曲线。
- 关键点检测:将车道线视为一系列关键点进行检测。
- 参数化曲线拟合:直接输出车道线的曲线参数(如三次样条曲线)。
- BevLane范式:如前所述,通过IPM或深度学习模型转换到鸟瞰图下进行检测,效果最好,已成为主流。
- 在智驾中的作用:车道保持、自动变道、导航的基础。
二、 按技术范式划分
这是理解当前技术发展趋势的更高级视角。
1. BEV感知
这是当前最炙手可热的技术范式,可以看作是之前各种任务的“融合器”和“性能助推器”。
- 核心思想:在模型早期,就将来自多个摄像头的图像特征,通过Transformer或MLP等网络,统一转换到同一个鸟瞰图 坐标系下。
- 巨大优势:
- 无遮挡:在BEV空间下,来自不同相机的特征可以自然融合,消除了单个相机视角的盲区。
- 多任务统一:在BEV特征图上,可以同时进行3D检测、车道线检测、可行驶区域分割等任务,结构非常优雅。
- 易融合:BEV特征很容易与高精地图、LiDAR点云进行融合。
- 代表性工作:
- LSS:开创性地提出了通过预测深度分布来提升图像到BEV的转换。
- BEVFormer:使用Transformer时序融合,成为了BEV感知的标杆之作。
- 您之前提到的BevLane,就是BEV范式在车道线检测上的成功应用。
2. Occupancy Networks
- 核心思想:不再将世界看作是“稀疏”的物体盒子,而是将其划分为一个个细小的3D体素,然后预测每个体素是否被占用。它输出的是一个3D的占据栅格图。
- 与传统3D检测相比的优势:
- 能描述任意形状:可以很好地处理卡车上的货物、异形车辆、动物等难以用标准3D框描述的物体。
- 更细致的几何理解:能感知到障碍物的细节轮廓和未被占用的自由空间。
- 应对长尾问题:对训练集中未出现过的物体类别,只要它占据空间,就能被检测为“占用”。
- 代表性工作:Tesla的Occupancy Networks 让这一技术范式大火,现在已成为众多厂商研究的方向。
3. 端到端自动驾驶
- 核心思想:这是一个更宏大的愿景。它试图用一个单一的、庞大的深度学习模型,直接接收传感器数据(图像/点云),然后输出控制信号(方向盘转角、油门、刹车),彻底取代传统的“感知-预测-规划”模块化流水线。
- 优势与挑战:
- 优势:避免模块化 pipeline 的信息损失和误差累积,可能做出更优的全局决策。
- 挑战:数据需求巨大、模型极其复杂、可解释性和安全性验证困难。
- 代表性工作:TransFuser, UniAD 等。这是自动驾驶技术的“圣杯”,但目前仍处于前沿探索阶段。
总结与关系图
为了方便您理解,我们可以这样看这些模型的关系:
传统范式(任务驱动):
传感器数据 -> [2D检测 / 分割] -> [3D检测 / 车道线检测] -> 规划控制
现代范式(BEV驱动):
多相机图像 -> BEV特征生成器 -> 在统一的BEV空间下执行:3D检测 + 车道线检测 + 占据网络... -> 规划控制
为了更直观地展示这些环境感知模型的关系与演进,我为您绘制了以下知识图谱:
