当前位置：首页 > news >正文

环境感知模型

news 2025/11/9 13:30:51

环境感知模型

- - 一、按任务类型划分
  - - 1. 2D目标检测
    - 2. 语义分割
    - 3. 实例分割
    - 4. 3D目标检测
    - 5. 车道线检测
  - 二、按技术范式划分
  - - 1. BEV感知
    - 2. Occupancy Networks
    - 3. 端到端自动驾驶
  - 总结与关系图

一、按任务类型划分

这是最经典的分类方式，根据模型要解决的具体问题来划分。

1. 2D目标检测

任务：在图像中找到所有特定类别的物体（如车、人），并用2D矩形框标记出来。
核心输出：[x_min, y_min, x_max, y_max, class, confidence]
经典模型：
- YOLO系列：速度快，兼顾精度，是工业界的宠儿。
- Faster R-CNN：两阶段检测的经典，精度高，速度稍慢。
- SSD：单阶段检测，在速度和精度间取得了良好平衡。
在智驾中的作用：主要用于障碍物存在性判断和粗略定位，是更高级任务的基础。例如，触发前方碰撞预警。

2. 语义分割

任务：对图像中的每一个像素进行分类，将其划分到预定义的类别（如天空、道路、车辆、行人）。
核心输出：一张与输入图像同尺寸的分割图，每个像素都有其类别标签。
经典模型：
- U-Net：编码器-解码器结构，在医学影像和自动驾驶中应用广泛。
- DeepLab系列：使用了空洞卷积和ASPP模块，能更好地捕捉多尺度上下文信息。
在智驾中的作用：可行驶区域分割、车道线分割、高精地图矢量化生产的前置步骤。它提供了非常精细的环境理解。

3. 实例分割

任务：语义分割的升级版，它不仅要区分像素的类别，还要区分不同的物体实例。比如，能分出“车A”、“车B”、“车C”，而语义分割只会把所有车都归为“车辆”这一类。
核心输出：为每个独立的物体实例生成一个分割掩码。
经典模型：
- Mask R-CNN：在Faster R-CNN基础上增加了一个分割分支，是实例分割的奠基性工作。
在智驾中的作用：当需要精确知道每个障碍物的轮廓时（如近距离切割、不规则物体），实例分割非常有用。

4. 3D目标检测

任务：检测物体在三维物理空间中的位置和姿态，输出3D边界框。
核心输出：[x, y, z, length, width, height, yaw, class] （中心点坐标、尺寸、偏航角）
数据源：
- 基于LiDAR：直接处理点云数据。模型如 PointPillars, VoxelNet, PointRCNN。精度高，是SparseOd的典型实现方式。
- 基于视觉：通过单目或双目图像估计3D信息。您之前问到的Mono就属于这一类。
- 多传感器融合：结合相机和LiDAR的优势，是未来的主流方向。模型如 MV3D, FusionPainter。
在智驾中的作用：精准的空间定位和碰撞风险评估，是规划控制的直接输入。

5. 车道线检测

任务：专门用于检测道路上的车道标记。
技术演进：
1. 基于图像分割：将车道线像素分割出来，然后通过后处理拟合曲线。
2. 关键点检测：将车道线视为一系列关键点进行检测。
3. 参数化曲线拟合：直接输出车道线的曲线参数（如三次样条曲线）。
4. BevLane范式：如前所述，通过IPM或深度学习模型转换到鸟瞰图下进行检测，效果最好，已成为主流。
在智驾中的作用：车道保持、自动变道、导航的基础。

二、按技术范式划分

这是理解当前技术发展趋势的更高级视角。

1. BEV感知

这是当前最炙手可热的技术范式，可以看作是之前各种任务的“融合器”和“性能助推器”。

核心思想：在模型早期，就将来自多个摄像头的图像特征，通过Transformer或MLP等网络，统一转换到同一个鸟瞰图 坐标系下。
巨大优势：
- 无遮挡：在BEV空间下，来自不同相机的特征可以自然融合，消除了单个相机视角的盲区。
- 多任务统一：在BEV特征图上，可以同时进行3D检测、车道线检测、可行驶区域分割等任务，结构非常优雅。
- 易融合：BEV特征很容易与高精地图、LiDAR点云进行融合。
代表性工作：
- LSS：开创性地提出了通过预测深度分布来提升图像到BEV的转换。
- BEVFormer：使用Transformer时序融合，成为了BEV感知的标杆之作。
- 您之前提到的BevLane，就是BEV范式在车道线检测上的成功应用。

2. Occupancy Networks

核心思想：不再将世界看作是“稀疏”的物体盒子，而是将其划分为一个个细小的3D体素，然后预测每个体素是否被占用。它输出的是一个3D的占据栅格图。
与传统3D检测相比的优势：
- 能描述任意形状：可以很好地处理卡车上的货物、异形车辆、动物等难以用标准3D框描述的物体。
- 更细致的几何理解：能感知到障碍物的细节轮廓和未被占用的自由空间。
- 应对长尾问题：对训练集中未出现过的物体类别，只要它占据空间，就能被检测为“占用”。
代表性工作：Tesla的Occupancy Networks 让这一技术范式大火，现在已成为众多厂商研究的方向。

3. 端到端自动驾驶

核心思想：这是一个更宏大的愿景。它试图用一个单一的、庞大的深度学习模型，直接接收传感器数据（图像/点云），然后输出控制信号（方向盘转角、油门、刹车），彻底取代传统的“感知-预测-规划”模块化流水线。
优势与挑战：
- 优势：避免模块化 pipeline 的信息损失和误差累积，可能做出更优的全局决策。
- 挑战：数据需求巨大、模型极其复杂、可解释性和安全性验证困难。
代表性工作：TransFuser, UniAD 等。这是自动驾驶技术的“圣杯”，但目前仍处于前沿探索阶段。

总结与关系图

为了方便您理解，我们可以这样看这些模型的关系：

传统范式（任务驱动）：
传感器数据 -> [2D检测 / 分割] -> [3D检测 / 车道线检测] -> 规划控制

现代范式（BEV驱动）：
多相机图像 -> BEV特征生成器 -> 在统一的BEV空间下执行：3D检测 + 车道线检测 + 占据网络... -> 规划控制

为了更直观地展示这些环境感知模型的关系与演进，我为您绘制了以下知识图谱：

http://www.dtcms.com/a/586710.html

相关文章：

网站设计制作教程天眼查河南建设网站公司

怎么制作网站详细教程视频什么什么网站

东莞网站开发营销哈尔滨建站的系统

html5 wap 网站模板西安网站建设制作公司

第四十四篇｜语言教育的结构可计算性：大阪观光商务日本语学院的语义建模实践

自动驾驶-判断前后左右

网站开发亿码酷流量网站推广页面英语

vps网站空间沧州兼职网站建设

网站权重如何速度增加福州小程序开发平台

FAML 完全入门指南：新一代动态配置语言

srcType instanceof Class 及泛型 vs 普通类

上海网站制作公司有哪些网站建设服务包含内容

章丘做网站优化网站优化无限关键词设置

Java线程通信：多线程程序中的高效协作！

一个彩票网站建设徐州seo公司

自己动手建立网站3个人网站不用备案

建设网站的建设费用包括星星wordpress模板

湖北做网站的网站建设分金手指专业二

飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

合肥公司网站建设wordpress 下一页

线性代数 - 理解特征值和特征向量（Eigenvalue Eigenvector）

汉服网站怎么做什么是h5开发

做外贸网站应该关注哪些地方网页浏览器在哪里打开

网站备案流程图哪些网站可以做推广

ComfyUI高级应用之ControlNet

整体设计全面梳理复盘之24 九宫格框架搭建与一体化开发环境设计编程之3

网站建设属于什么开票类目哪些网站开业做简单海报

便宜网站建设哪家好wordpress330

公司怎么做网站需要多少钱思途旅游网站建设系统

【组会汇报的问题】ConDSeg论文