两篇BEVfusion原理总结及区别
一、阿里和北大版:BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework
总结:
重点: 介绍了一个融合摄像头和激光雷达数据的框架,用于3D对象检测。其创新之处在于使摄像头流程不依赖激光雷达输入,解决了现有方法过度依赖激光雷达数据的局限性。
方法: BEVFusion框架使用两个独立流程来处理激光雷达和摄像头数据,然后在鸟瞰视图(BEV)层面进行融合。这种方法即使在激光雷达功能失常,或摄像头失常的情况下也保证了稳健性。
简洁版总结:
BevFusion: A Simple and Robust LiDAR-Camera Fusion Framework(北大阿里的)_bevfusion: a simple and robust lidar-camera fusion-CSDN博客https://blog.csdn.net/2301_77102499/article/details/137194100?spm=1001.2014.3001.5502
具体细节版:
Camera Stream 、 LiDAR Stream 和 Fusion详细介绍:
三. LiDAR和Camera融合的BEV感知算法-BEVFusion_mit的bevfusion和北大的bevfusion的区别-CSDN博客https://blog.csdn.net/qq_40672115/article/details/134891133
二、MIT-麻省理工版:BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation
2.1 框架流程总结如下:
1、对于每个传感器(Lidar and Camera)输入,首先使用特定模态的编码器提取各自的特征,然后将多模态特征转换到一个统一的BEV空间表示,既保留了几何和语义信息;
2、在将所有特征转换为BEV时,确定了视图转换中主要的阻碍效率瓶颈:BEV池化操作 占用模型运行时的80%以上。 然后,我们提出了一个具有预计算和间隔缩减的专用核来消除这一瓶颈,实现了BEV pooling的40%以上的加速比。
3、然后,我们应用全卷积BEV编码器融合统一的BEV特征,以缓解不同特征之间的局部错位。并附加了一些特定于任务的头来支持不同的 3D 任务。
2.2 过程详细介绍、及MIT版代码解析:
【论文阅读】ICRA 2023|BEVFusion:Multi-Task Multi-Sensor Fusion with Unified Bird‘s-Eye View Representation_bevfusion论文-CSDN博客https://blog.csdn.net/QLeelq/article/details/128546707
三、两篇BEVformer的区别
阿里和北大版:主要是讲让激光和相机在融合前独立运行,剥离依存关系;
MIT-麻省理工版:主要讲解决融合时BEV特征统一性问题,并对该方式的运行效率做了优化。