当前位置: 首页 > news >正文

环境感知模型

环境感知模型

      • 一、 按任务类型划分
        • 1. 2D目标检测
        • 2. 语义分割
        • 3. 实例分割
        • 4. 3D目标检测
        • 5. 车道线检测
      • 二、 按技术范式划分
        • 1. BEV感知
        • 2. Occupancy Networks
        • 3. 端到端自动驾驶
      • 总结与关系图


一、 按任务类型划分

这是最经典的分类方式,根据模型要解决的具体问题来划分。

1. 2D目标检测
  • 任务:在图像中找到所有特定类别的物体(如车、人),并用2D矩形框标记出来。
  • 核心输出[x_min, y_min, x_max, y_max, class, confidence]
  • 经典模型
    • YOLO系列:速度快,兼顾精度,是工业界的宠儿。
    • Faster R-CNN:两阶段检测的经典,精度高,速度稍慢。
    • SSD:单阶段检测,在速度和精度间取得了良好平衡。
  • 在智驾中的作用:主要用于障碍物存在性判断粗略定位,是更高级任务的基础。例如,触发前方碰撞预警。
2. 语义分割
  • 任务:对图像中的每一个像素进行分类,将其划分到预定义的类别(如天空、道路、车辆、行人)。
  • 核心输出:一张与输入图像同尺寸的分割图,每个像素都有其类别标签。
  • 经典模型
    • U-Net:编码器-解码器结构,在医学影像和自动驾驶中应用广泛。
    • DeepLab系列:使用了空洞卷积和ASPP模块,能更好地捕捉多尺度上下文信息。
  • 在智驾中的作用可行驶区域分割车道线分割高精地图矢量化生产的前置步骤。它提供了非常精细的环境理解。
3. 实例分割
  • 任务:语义分割的升级版,它不仅要区分像素的类别,还要区分不同的物体实例。比如,能分出“车A”、“车B”、“车C”,而语义分割只会把所有车都归为“车辆”这一类。
  • 核心输出:为每个独立的物体实例生成一个分割掩码
  • 经典模型
    • Mask R-CNN:在Faster R-CNN基础上增加了一个分割分支,是实例分割的奠基性工作。
  • 在智驾中的作用:当需要精确知道每个障碍物的轮廓时(如近距离切割、不规则物体),实例分割非常有用。
4. 3D目标检测
  • 任务:检测物体在三维物理空间中的位置和姿态,输出3D边界框
  • 核心输出[x, y, z, length, width, height, yaw, class] (中心点坐标、尺寸、偏航角)
  • 数据源
    • 基于LiDAR:直接处理点云数据。模型如 PointPillars, VoxelNet, PointRCNN。精度高,是SparseOd的典型实现方式。
    • 基于视觉:通过单目或双目图像估计3D信息。您之前问到的Mono就属于这一类。
    • 多传感器融合:结合相机和LiDAR的优势,是未来的主流方向。模型如 MV3D, FusionPainter
  • 在智驾中的作用精准的空间定位和碰撞风险评估,是规划控制的直接输入。
5. 车道线检测
  • 任务:专门用于检测道路上的车道标记。
  • 技术演进
    1. 基于图像分割:将车道线像素分割出来,然后通过后处理拟合曲线。
    2. 关键点检测:将车道线视为一系列关键点进行检测。
    3. 参数化曲线拟合:直接输出车道线的曲线参数(如三次样条曲线)。
    4. BevLane范式:如前所述,通过IPM或深度学习模型转换到鸟瞰图下进行检测,效果最好,已成为主流。
  • 在智驾中的作用车道保持、自动变道、导航的基础。

二、 按技术范式划分

这是理解当前技术发展趋势的更高级视角。

1. BEV感知

这是当前最炙手可热的技术范式,可以看作是之前各种任务的“融合器”和“性能助推器”。

  • 核心思想:在模型早期,就将来自多个摄像头的图像特征,通过TransformerMLP等网络,统一转换到同一个鸟瞰图 坐标系下。
  • 巨大优势
    • 无遮挡:在BEV空间下,来自不同相机的特征可以自然融合,消除了单个相机视角的盲区。
    • 多任务统一:在BEV特征图上,可以同时进行3D检测、车道线检测、可行驶区域分割等任务,结构非常优雅。
    • 易融合:BEV特征很容易与高精地图、LiDAR点云进行融合。
  • 代表性工作
    • LSS:开创性地提出了通过预测深度分布来提升图像到BEV的转换。
    • BEVFormer:使用Transformer时序融合,成为了BEV感知的标杆之作。
    • 您之前提到的BevLane,就是BEV范式在车道线检测上的成功应用。
2. Occupancy Networks
  • 核心思想:不再将世界看作是“稀疏”的物体盒子,而是将其划分为一个个细小的3D体素,然后预测每个体素是否被占用。它输出的是一个3D的占据栅格图。
  • 与传统3D检测相比的优势
    • 能描述任意形状:可以很好地处理卡车上的货物、异形车辆、动物等难以用标准3D框描述的物体。
    • 更细致的几何理解:能感知到障碍物的细节轮廓和未被占用的自由空间。
    • 应对长尾问题:对训练集中未出现过的物体类别,只要它占据空间,就能被检测为“占用”。
  • 代表性工作Tesla的Occupancy Networks 让这一技术范式大火,现在已成为众多厂商研究的方向。
3. 端到端自动驾驶
  • 核心思想:这是一个更宏大的愿景。它试图用一个单一的、庞大的深度学习模型,直接接收传感器数据(图像/点云),然后输出控制信号(方向盘转角、油门、刹车),彻底取代传统的“感知-预测-规划”模块化流水线。
  • 优势与挑战
    • 优势:避免模块化 pipeline 的信息损失和误差累积,可能做出更优的全局决策。
    • 挑战:数据需求巨大、模型极其复杂、可解释性和安全性验证困难。
  • 代表性工作TransFuser, UniAD 等。这是自动驾驶技术的“圣杯”,但目前仍处于前沿探索阶段。

总结与关系图

为了方便您理解,我们可以这样看这些模型的关系:

传统范式(任务驱动)
传感器数据 -> [2D检测 / 分割] -> [3D检测 / 车道线检测] -> 规划控制

现代范式(BEV驱动)
多相机图像 -> BEV特征生成器 -> 在统一的BEV空间下执行:3D检测 + 车道线检测 + 占据网络... -> 规划控制

为了更直观地展示这些环境感知模型的关系与演进,我为您绘制了以下知识图谱:

环境感知模型
按任务类型
按技术范式
2D目标检测
图像分割
3D目标检测
车道线检测
语义分割
实例分割
基于LiDAR
SparseOd典型
基于视觉
Mono3D
多传感器融合
BEV感知
当前主流范式
Occupancy网络
描述任意形状
端到端
未来探索方向
代表性模型
BEVFormer
您之前问到的BevLane
核心优势
解决长尾异形物体
最终目标
感知决策一体化
http://www.dtcms.com/a/586710.html

相关文章:

  • 网站设计制作教程天眼查河南建设网站公司
  • 怎么制作网站详细教程视频什么什么网站
  • 东莞网站开发营销哈尔滨建站的系统
  • html5 wap 网站模板西安网站建设制作公司
  • 第四十四篇|语言教育的结构可计算性:大阪观光商务日本语学院的语义建模实践
  • 自动驾驶-判断前后左右
  • 网站开发亿码酷流量网站推广页面 英语
  • vps网站空间沧州兼职网站建设
  • 网站权重如何速度增加福州小程序开发平台
  • FAML 完全入门指南:新一代动态配置语言
  • srcType instanceof Class 及泛型 vs 普通类
  • 上海网站制作公司有哪些网站建设服务包含内容
  • 章丘做网站优化网站优化无限关键词设置
  • Java线程通信:多线程程序中的高效协作!
  • 一个彩票网站建设徐州seo公司
  • 自己动手建立网站3个人网站 不用备案
  • 建设网站的建设费用包括星星wordpress模板
  • 湖北做网站的网站建设分金手指专业二
  • 飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端
  • 合肥公司网站建设wordpress 下一页
  • 线性代数 - 理解特征值和特征向量(Eigenvalue Eigenvector)
  • 汉服网站怎么做什么是h5开发
  • 做外贸网站应该关注哪些地方网页浏览器在哪里打开
  • 网站备案流程图哪些网站可以做推广
  • ComfyUI高级应用之ControlNet
  • 整体设计 全面梳理复盘 之24 九宫格框架搭建与一体化开发环境设计 编程 之3
  • 网站建设属于什么开票类目哪些网站开业做简单海报
  • 便宜网站建设哪家好wordpress330
  • 公司怎么做网站需要多少钱思途旅游网站建设系统
  • 【组会汇报的问题】ConDSeg论文