当前位置: 首页 > news >正文

bevformer 網絡結構

BEVFormer 是一种基于 Transformer 的鸟瞰图(Bird's-Eye-View, BEV)感知模型,专为自动驾驶多相机 3D 检测与环境感知设计,由香港中文大学和商汤科技团队在 2022 年提出。其核心创新是通过时空注意力机制将多视角图像特征高效融合到 BEV 空间,实现对周围环境的全局鸟瞰视角理解。以下是其网络结构的详细解析:

一、整体框架


BEVFormer 的整体流程可分为 3 个核心阶段:

  1. 图像特征提取:从多相机图像中提取 2D 特征;
  2. BEV 特征编码:通过 Transformer 编码器将图像特征投影到 BEV 空间,并融合时间信息;
  3. 下游任务头:基于 BEV 特征进行 3D 目标检测、语义分割等任务。

其结构示意图可概括为:
多相机图像 → 图像主干网络 → 特征增强 → BEV Transformer 编码器 → BEV 特征 → 检测/分割头

二、核心模块详解


1. 图像特征提取与预处理

  • 输入:自动驾驶车辆周围的多个相机(通常 6-8 个,覆盖 360° 视野)拍摄的 RGB 图像。
  • 主干网络(Backbone):采用预训练的 2D 卷积网络(如 ResNet-50、VoVNet)提取图像的多尺度特征(如 1/8、1/16、1/32 分辨率)。
  • 特征增强(Neck):通过 FPN(Feature Pyramid Network)融合不同尺度的图像特征,输出高分辨率(如 1/8 或 1/16)的特征图,保留更多细节信息。
  • 图像特征与位置编码
    • 每个相机的特征图被视为图像特征序列(展平为二维网格的向量);
    • 为图像特征添加相机内参 + 外参编码(即该像素在世界坐标系中的位置信息),帮助模型理解像素的空间位置。


2. BEV Transformer 编码器(核心创新)

BEV 编码器是模型的核心,其作用是将多视角图像特征 “lift” 到 BEV 空间(即鸟瞰图视角,通常是一个 H×W 的网格,代表地面上的区域),并融合历史帧信息。

编码器由 N 个堆叠的 BEV 注意力层 组成,每个注意力层包含两个关键子模块:

  • (1)空间交叉注意力(Spatial Cross-Attention)
    作用:将多相机图像特征投影到 BEV 空间。

    • BEV 查询(BEV Query):初始化一个 BEV 特征网格(如 200×200),每个网格点对应一个可学习的向量(称为 “查询”),代表 BEV 空间中的一个位置。
    • 交叉注意力计算:每个 BEV 查询会 “关注” 所有相机中与其相关的图像特征。具体来说,通过相机的内外参计算 BEV 网格点在图像上的投影区域(即 “感兴趣区域”),仅让 BEV 查询与该区域的图像特征进行注意力交互,减少计算量。
    • 效果:将分散在多视角图像中的空间信息聚合到 BEV 网格中,形成初步的 BEV 特征。

  • (2)时间自注意力(Temporal Self-Attention)
    作用:融合历史帧的 BEV 特征,增强对动态物体(如其他车辆、行人)的感知稳定性。

    • 历史 BEV 特征缓存:模型会存储前几帧(如前 2 帧)的 BEV 特征。
    • 自注意力计算:当前帧的 BEV 查询不仅关注同帧的 BEV 特征,还会与历史帧中对应位置的 BEV 特征进行注意力交互(通过时间位置编码区分不同时刻)。
    • 效果:利用时间连续性弥补单帧感知的噪声(如遮挡、运动模糊),提升动态场景的鲁棒性。


3. 位置编码设计

BEVFormer 中位置编码的设计对注意力机制至关重要,包括:

  • 图像特征的位置编码:结合像素的 2D 图像坐标和 3D 世界坐标(通过相机参数转换),使模型理解像素的空间位置。
  • BEV 查询的位置编码:为每个 BEV 网格点添加 3D 世界坐标(x, y, z=0,因 BEV 是地面视角),帮助模型区分不同 BEV 位置的语义。
  • 时间位置编码:为历史帧的 BEV 特征添加时间戳编码,区分不同时刻的特征。

4. 下游任务头

基于编码后的 BEV 特征,可接入不同的任务头:

  • 3D 目标检测头:通过卷积或 Transformer 解码器预测目标的类别(如车、行人)、3D 边界框(中心坐标、尺寸、朝向)。
  • BEV 语义分割头:对 BEV 网格进行逐点分类(如道路、人行道、植被)。

三、核心优势


  1. 全局视角融合:通过 BEV 空间统一多相机信息,避免视角转换的歧义性;
  2. 时空联合建模:时间自注意力有效利用历史信息,提升动态场景鲁棒性;
  3. 高效计算:空间交叉注意力通过 “感兴趣区域” 限制交互范围,降低计算复杂度。

四、性能表现


在 nuScenes 数据集(自动驾驶主流 benchmark)上,BEVFormer 显著超越同期方法:

  • 3D 目标检测任务中,NDS(平均检测分数)达到 60.9%,mAP(平均精度)达到 53.3%;
  • 结合时序信息后,对远距离小目标(如远处行人)的检测精度提升 10% 以上。

BEVFormer 奠定了 “图像→BEV” 转换的主流框架,后续许多工作(如 BEVDet、PETR)均在此基础上优化注意力机制或特征提取方式,推动了自动驾驶视觉感知的发展。


文章转载自:

http://yms8tck8.ppfxg.cn
http://LOB6pjG9.ppfxg.cn
http://ttmTDYFk.ppfxg.cn
http://FvvHzRYO.ppfxg.cn
http://7N0hE85w.ppfxg.cn
http://fiU6InNb.ppfxg.cn
http://SqD9Je5H.ppfxg.cn
http://6MqU0TvU.ppfxg.cn
http://uPySCwtA.ppfxg.cn
http://IYZHNV39.ppfxg.cn
http://esmCd7XJ.ppfxg.cn
http://OKivLWCZ.ppfxg.cn
http://Q0p6NIiK.ppfxg.cn
http://D0hHrLEI.ppfxg.cn
http://6UWV5s6G.ppfxg.cn
http://BCO5alqE.ppfxg.cn
http://2KkT3aYV.ppfxg.cn
http://clnizbDU.ppfxg.cn
http://ywDh4bLk.ppfxg.cn
http://FFhzPBHb.ppfxg.cn
http://wyeoF3QA.ppfxg.cn
http://p6TXZybx.ppfxg.cn
http://AENR27hM.ppfxg.cn
http://BZ54qfh7.ppfxg.cn
http://TO5Vz7Yr.ppfxg.cn
http://kYlWoy8f.ppfxg.cn
http://Sj32QqME.ppfxg.cn
http://Cf3DB1Le.ppfxg.cn
http://XXj0UwN3.ppfxg.cn
http://swHcJpIb.ppfxg.cn
http://www.dtcms.com/a/387212.html

相关文章:

  • MySQL 基础与实战操作
  • 系统架构设计(二)
  • 【Day 58】Redis的部署
  • UVM验证工具--gvim
  • 《C++ spdlog高性能日志库快速上手》
  • 代码随想录学习(二)——二分查找
  • 【代码随想录day 27】 力扣 53. 最大子序和
  • Zynq开发实践(SDK之第一个纯PS工程)
  • 【Spring生态】Spring Cloud
  • HarmonyOS应用拉起系列(三):如何直接拉起腾讯/百度/高德地图进行导航
  • Redis的主从库与切片集群机制
  • 打工人日报#20250916
  • WASM逆向
  • 如何计算最大公约数和最小公倍数
  • 我们设计时间戳的更新时间的时候通常将字段类型设置为int或者bigint 这样能避免2038的问题吗
  • 超越“防被告”:2025跨境电商IPR战略赋能与品牌升值之道
  • Scrapy进阶:POST请求模拟登录实战与管道的使用
  • Zabbix 7.0 配置钉钉告警
  • 知识拓展-智能体和数字人
  • 飞牛NAS部署影视站MooncakeTV
  • yolov8 和OPENCV 自带的目标检测模型 对比
  • 课前练习题-20250916-复习题
  • 基于Transformer-卷积神经网络和度量元学习的高压断路器小样本机械故障诊断
  • 基于 Rust 的 IoT 平台基础功能设计(一)
  • vue+typescript+node的前端项目
  • catkin工程和CMakelist.txt的基本使用
  • 使用 MyCat 实现 MySQL 主从读写分离
  • Visual Studio 函数头显示引用个数
  • 【毕业设计选题】大数据技术专业毕业设计选题指南指南:python(2026 届)
  • 组播实验指导