当前位置: 首页 > news >正文

不同传感器前中后融合方案简介

在自动驾驶场景下,摄像头 + 激光雷达的传感器融合方案是最常见的感知技术路线,目标是充分利用二者的互补性:

  • 摄像头优势:分辨率高、纹理丰富、颜色信息齐全,有利于识别语义信息(车道线、交通灯、行人类别等)。
  • 激光雷达优势:天然地具有深度信息,直接测得高精度距离和稠密点云,有利于构建 3D 几何结构和检测障碍物。

融合方式大致分为三类:前融合、中融合、后融合。

1. 前融合

前融合,是指把各个传感器的数据采集后,经过数据同步后,对这些原始数据进行融合,因此也称为数据级融合。将摄像头图像与激光雷达点云在几何空间对齐,例如把 3D LiDAR 点云投影到 2D 图像上, 然后检查点云是否属于 2D 边界框。前融合展示如下图:

在这里插入图片描述

前融合可以从整体上来处理信息,让数据更早做融合,整体处理信息,让数据更有关联性,把激光雷达点云和摄像头像素级数据进行融合,信息损失比较少;但前融合也会存在一些问题,例如:点云数据和像素数据坐标系不同,直接融合效果差;需要处理的数据量大,对算力要求较高;对融合策略要求也比较高,目前业内应用的比较少。

2. 后融合

后融合是指摄像头和激光雷达等各传感器独立完成感知任务(如检测、分割),最后在结果层面进行融合(如加权,IOU 匹配等),因此也称之为目标级融合。例如,可以将摄像头的 2D 边界框投影到 3D 边界框,然后将这些边界框与 LiDAR 检测过程中获得的边界框进行融合。

后融合的优点是传感器独立识别,解耦性好,易于扩展。缺点是会损失中间信息影响精度;rule-based 融合规则有局限性,难以充分利用跨模态互补信息。

后融合展示如下图:

在这里插入图片描述

3. 中融合

中融合,是指先将各个传感器通过神经网络模型提取中间层特征(即有效特征),再融合有效主要特征,也称为特征级融合,典型的是对有效特征在 BEV 空间进行融合。相比于前融合与后融合,在 BEV 空间进行中融合有如下优点:

  1. 跨摄像头融合和多模融合更容易实现,因为统一了数据空间,不需要处理规则关联不同传感器的感知结果,算法实现更加简单;
  2. 可以很容易地融合时序信息,形成 4D 空间,感知网络可以更好地实现一些感知任务,如测速等;
  3. 可“脑补”出被遮挡区域目标,在 BEV 空间,给予先验知识,对被遮挡的区域进行预测;
  4. 感知和预测在统一空间(BEV 空间)内完成,可以通过神经网络直接做端到端优化,并行出结果,既可以避免误差累积,也可以减少人工逻辑,让感知网络通过数据驱动的方式自学习,从而更好地实现功能迭代。

目前使用最多的是中融合方案。

  1. BEVFusion

BEVFusion 是典型的中融合方法,将来自相机和 LiDAR 的原始输入编码到同一个 BEV 空间。如下图所示,BEVFusion 主要由相机流、激光雷达流、动态融合模块和检测头组成,分别简单看下

在这里插入图片描述

相机流将多视角图像转到 BEV 空间,由图像编码器、视觉投影模块、BEV 编码器组成。

图像编码器旨在将输入图像编码为语义信息丰富的深度特征,它由用于基本特征提取的 2D backbone 和用于多尺度特征提取的 FPN 组成,并采用了一个简单的功能自适应模块 ADP 来完善上采样功能,如下图所示:

在这里插入图片描述

视觉投影模块采用 LSS,将图像特征转换到自车坐标系的 3D 表示。该方法以图像视图为输入,通过离散分类的方式密集预测深度;随后结合相机外参与预测深度,生成伪体素表示。

BEV 编码模块采用空间到通道(S2C)操作将 4D 伪体素特征编码到 3D BEV 空间,从而保留语义信息并降低成本。然后使用四个 3 × 3 卷积层缩小通道维度,并提取高级语义信息。

动态融合模块的作用是将 concat 后的 相机、 LiDAR 的 BEV 特 进行有效融合,BEVFusion 应用一个简单的通道注意力模块来选择重要的融合特征,网络结构图如下所示:

在这里插入图片描述

LiDAR 流将激光雷达点转换为 BEV 空间,BEVFusion 采用 3 种流行的方法,PointPillars、CenterPoint 和 TransFusion 作为激光雷达流,从而展示模型框架的优秀泛化能力。

http://www.dtcms.com/a/609336.html

相关文章:

  • 《C++在LLM系统中的核心赋能与技术深耕》
  • sward V2.1.5 版本发布,支持文档导出为html\PDF,社区版新增多种账号集成与认证
  • 东莞建站网站模板怎么做电脑网站后台
  • 物联网赋能互联网医院:构建智慧医疗新生态
  • node.js+npm的环境配置以及添加镜像(保姆级教程)
  • Java 大视界 -- 基于 Java 的大数据联邦学习在跨行业数据协同创新中的实践突破
  • 企业做网站电话约见客户的对话北京网站建设 一流
  • Android Studio + Gemini 移动开发领域的一次范式转移
  • 基于多源政策信号解析与量化因子的“12月降息预期降温”重构及黄金敏感性分析
  • LinuxC语言文件i/o笔记(第十七天)
  • Spring AI Evaluation Testing(评估测试)
  • 太仓营销型网站建设四平网站建设怎么选
  • 记一次慢接口优化:载体详情页从90秒到800毫秒的性能提升实战
  • 微软Visual Studio 2026正式登场,AI融入开发核心操作体验更流畅
  • 微软vcpkg包管理工具如何使用?
  • 提供小企业网站建设织梦网站默认密码忘记
  • 基于XTOM蓝光扫描的复杂中小尺寸零件3D形貌重建与全尺寸误差分析
  • Qt 自定义菜单栏 / 工具栏按钮 QToolButton + InstantPopup 详细解析
  • 2025年AI生成PPT工具深度评测:技术对比与实战分析
  • 智慧园区:科技赋能下的安全便捷生活新范式
  • 华为WATCH 5:连接心与心,让生活更美好
  • 内容管理系统解决方案架构及实施
  • 建设银行网站的服务管理商业机构的网站是什么
  • Python与大数据:使用PySpark处理海量数据
  • Django 缓存详解与应用方法
  • SDN架构详解
  • Spring Boot缓存实战:@Cacheable注解详解与性能优化
  • LeetCode热题100--17. 电话号码的字母组合
  • C++初阶(07):STL简介
  • 中国哪些网站做软装建设彩票网站合法吗