BEVFusion 是一种高效的多传感器融合框架,专为自动驾驶场景设计,核心是将图像和激光雷达(LiDAR)数据统一到 BEV(鸟瞰视角)空间进行融合。其网络结构可分为 输入层、模态编码器、BEV 转换层、BEV 编码器、任务头 五个核心模块,各部分协同实现跨模态特征的高效融合。
BEVFusion 的核心思想是:让图像和点云各自通过独立编码器提取特征,再转换到统一的 BEV 空间进行融合,最后通过共享的 BEV 编码器输出特征,支撑下游 3D 任务。这种设计打破了传统融合方法中模态间的强依赖(如点云主导、图像辅助),实现了模态对等融合,即使单一模态缺失也能独立工作。
- 点云输入:LiDAR 原始点云(x, y, z, intensity)经体素化(Voxelization)处理,转换为规则的 3D 体素网格(如 0.2m×0.2m×0.4m 分辨率),便于后续 3D 卷积处理。
- 图像输入:多个摄像头(通常 6-8 个,覆盖 360° 视野)的 2D 图像,经畸变校正、内外参校准后,保留原始像素信息,作为图像编码器的输入。
分别对 LiDAR 和图像进行特征提取,保留各自模态的优势(点云精确的深度信息、图像丰富的语义信息)。
将图像特征从 图像视角(Perspective View) 转换到 BEV 视角,与点云的 BEV 特征对齐,是 BEVFusion 的核心创新点。
将图像 BEV 特征和点云 BEV 特征在 BEV 空间进行融合,并进一步提取全局上下文信息。
基于最终 BEV 特征,通过不同的任务头实现多任务学习(无需重复计算基础特征)。
3D 目标检测头:
用卷积层或全连接层预测 BEV 网格中物体的 类别、中心坐标、尺寸、朝向(如车辆、行人、骑行者)。
BEV 语义分割头:
对 BEV 网格进行像素级分类,输出 道路、车道线、人行道、障碍物 等语义标签。
占据预测(OCC)头:
预测 3D 体素网格的占据状态(是否有物体),用于建模复杂场景中的遮挡区域。
- 模态解耦:图像和点云分支独立,单一模态缺失时仍能工作(如雨天点云受干扰,可仅用图像推理)。
- 效率优化:BEV 转换层的工程优化(预计算、间隔缩减)解决了传统方法的速度瓶颈,支持实时推理。
- 多任务统一:共享 BEV 特征支持检测、分割、占据预测等多任务,减少冗余计算。
BEVFusion 的网络结构通过 “单模态编码→BEV 空间转换→跨模态融合→多任务输出” 的流程,实现了图像与点云的高效融合。其核心创新在于将融合过程迁移到统一的 BEV 空间,既保留了各模态的优势,又降低了跨视角融合的难度,为自动驾驶的环境感知提供了高精度、高效率的解决方案。