当前位置: 首页 > news >正文

High precision single-photon object detection via deep neural networks,OE2024

摘要:

单光子成像是一种新兴的传感技术,能够在极端条件下成像和识别远程物体。然而,它面临着几个挑战,例如低分辨率和高噪声,来完成目标检测任务。在这项工作中,我们提出了一个增强的You Only Look Once网络来识别和定位单光子传感生成的图像中的对象。然后,我们在自建单光子数据集和VisDrone2019公共数据集上进行了实验测试所提出的网络。我们的结果表明,我们的网络实现了比基线模型更高的检测精度。此外,它在检测小的单光子物体时具有更高的平均精度。我们的工作有望帮助探索单光子传感的实际应用取得重大进展。

1. Introduction

单光子传感因其极高的检测灵敏度和时间分辨率被广泛应用于各个领域[1,2]。由于它检测光的单个光子,然后将它们转换为电信号[3],它能够在极端条件下成像远程甚至隐藏的物体,如墨基水[4,5]、浓雾[6-9]和远处物体几乎无法辨别的场景[1,10 - 13]。因此,该传感技术已发现水下勘探[14,15]、环境监测[16]和自动驾驶[17]的实际应用。

单光子成像出现在传感中,通过检测单个光子来恢复目标场景,并擅长捕捉具有卓越深度精度场景。然而,目标场景中物体的语义细节和位置信息仍然是未知的。为了填补这一空白,我们在这里应用单光子成像来完成目标检测任务,该任务旨在识别和分类图像中的对象。这种集成使单光子成像不仅能够感知,而且能够理解和解释场景。由于单光子图像是具有低分辨率、高噪声和有限特征表示的深度图,因此直接应用基于传统成像技术的检测方法面临着挑战,如You Only Look Once (YOLO)系列[18,19]和手动构建的特征[20,21]。因此,它需要适用于单光子目标检测的新方法。

在这项工作中,我们提出了一种增强的单光子YOLO (ESP-YOLO)网络来解决上述问题,从而以高精度完成目标检测的任务。具体来说,该网络将多感受野与多尺度特征相结合融合提取单光子物体的特征。此外,它还能够检测小物体,因为它与小目标检测任务密切相关[22-24]。

然后,在单光子成像系统和公共VisDrone2019数据集[25]生成的自建单光子数据集上对ESP-YOLO进行了实验测试。实验结果证实了其有效性,也表现出较高的检测精度和良好的适应性。特别是,我们的模型在 mAP50:90 3.8% 和 2.4% 的 mAP50:90 到 3.8% 和 2.4% 的交集 (IoU) 阈值 0.5 (mAP50) 的平均精度 (mAP) 下实现了 5.7% 和 4.6% 的改进检测精度,并且两个数据集中小物体 (APS) 的平均精度比原来的 YOLOv8 高 3.3% 和 4.4%。此外,与其他方法相比,它对中等对象 (APM) 的 mAP50、mAP50:90、APS 和平均精度得分更高,显示出其在单光子目标检测中的巨大潜力。

2. Problem definition

2.1. Single-photon Imaging

单光子成像系统(见图1)通常由脉冲激光源、单光子探测器(SPD)和时间相关的单光子计数(TCSPC)模块组成。它的工作原理是激光源首先发送周期性的光脉冲来照亮目标场景。然后,SPD收集反射光子,TCSPC模块记录这些接收光子的飞行时间(ToF)。最后,利用优化算法和/或深度神经网络对收集到的数据进行处理,对目标进行成像。

图1 单光子成像系统

对于图像的每个像素(i, j),激光周期性地发送N≥1个波函数光脉冲(t),到达SPD的光子强度Φij(·)由下式给出

其中 η ∈ [0, 1] 是检测效率,nb 和 nd 表示背景光和暗计数引起的噪声强度,αij 是光衰减参数,c 是光速,zi,j 是激光源与目标之间的距离。在实践中,满足弱光条件,即在持续时间[3]的一次重复周期内检测到最多一个单光子。

因此,光子计数直方图hij[k]服从正分布[26]

对于 k = 1,。, K,具有 N 个照明周期。这里 K 表示从 TOF 采样的总时间箱。

在完成整个检测过程后,与目标场景相关的光子计数直方图矩阵形成一个3D矩阵H,其元素hijk由Eq.(2)给出,对于每个像素(i, j)。因此,成像任务是使用算法来检索目标的深度,由矩阵 Z 描述,其元素 zij 是每个像素的深度 (i, j)。这些算法通常分为两类,具体取决于物理定律 (1) 是否被明确使用。第一个将物理定律(1)与直方图(2)相结合,将其表述为一个优化问题,可以通过单光子成像算法[27]、滤波和去噪[28]和三维反褶积[1]求解。第二个利用深度神经网络,如非局部神经网络[29]、U-net++[30]、物理信息深度学习[31]和像素级残差收缩(PRS)网络[32],直接重建目标[33,34]。

2.2.单光子目标检测

给定一个以 H(height) × W(width) × C(channel) 矩阵为特征的图像 I,对象检测旨在以以下形式输出一组边界框和分类标签

其中 M 表示检测到的对象总数,f 是检测算法,Bi 是坐标为 (xmin, ymin, xmax, ymax) 的边界框,Si 是 S 个可能类别的类标签。有许多成功的目标检测算法,如Viola Jones等传统方法[20]、定向梯度直方图[21]和基于网络的方法,包括YOLO[18,19]系列、CNN (RCNN)[35]的区域。这些方法的成功依赖于特征提取,因此输入图像中区分的特征和丰富的细节决定了目标检测的准确性。

由此可见,单光子图像Z相当于具有单通道的图像I,即C=1。因此,单光子目标检测自然被表示为

然而,实现高精度单光子目标检测存在挑战。首先,单光子图像的空间分辨率受到数据采集的限制,即当前的单光子成像系统生成64 × 64或128 × 128的低分辨率图像。其次,单光子图像可以被认为是一个具有单通道的深度图Z,而不是RGB图像的三个通道,因此特征表示有限。第三,由于单光子成像主要针对极端条件[1,4,10,11],因此收集极低的信噪比数据,生成的图像存在更高水平的噪声。因此,它需要新的方法来进行单光子目标检测。

请注意,检测小物体也会受到低分辨率、复杂背景和有限的上下文信息的影响[22-24],已经提出了几种专门的方法,包括多尺度融合[36-38]、上下文信息[39-41]和超分辨率[42-44]。我们观察到,与小目标检测相关的这些困难与单光子检测中遇到的障碍高度一致。因此,我们利用小目标检测的思想来帮助我们实现高精度单光子目标检测。

3. Methodology

单光子目标检测是通过成像检测方法完成的。具体来说,我们首先使用PRS网络,然后应用ESP-YOLO对生成的图像Z中的对象进行定位和分类。该方法的工作流程如图2所示,ESP-YOLO的完整算法如算法1所示。

图2 单光子目标检测的工作管道

3.1.单光子成像的PRS网络

单光子图像 Z 通过 PRS 网络 [32] 重建(见图 2)。它首先使用模拟的单光子直方图数据H进行训练,这些数据H是根据物理定律(1)和(2)对NYUv2深度数据集[45]进行采样生成的,然后用于从单光子数据中重建图像。

3.2. 用于目标检测的ESP-YOLO

YOLOv8的深度网络在目标检测的检测性能和部署能力方面表现出色,其功能结构由三部分组成:Backbone、Neck和Head。具体来说,Backbone首先提取特征,Neck然后通过多尺度融合增强特征,Head最终完成定位和分类的任务。它将模型分层为五个尺度:N、S、M、L、X,它们具有相同的架构,但在宽度和深度系数的数量上有所不同。在这项工作中,选择“S”尺度作为我们的基线模型,因为它在计算效率和检测精度之间提供了一种平衡的方法,使其非常适合我们数据集的大小和复杂性。

图3 ESP-YOLO的功能结构。与基线 YOLOv8 相比,彩色框表示增强模块。

与基线 YOLOv8 相比,ESP-YOLO(见图 3)在以下三个方面进行了改进:

3.2.1.增强感受野模块(ERFM)

增强的感受野模块(ERFM)是专门为解决单光子图像的低分辨率特性而设计的。与直接池化和连接方法不同在 YOLOv8 的 SPPF 模块中,ERFM 集成了多尺度和多感受野特征,这对于在低分辨率单光子图像中捕获局部和全局信息至关重要,否则会因激进的池化而丢失。

最初,ERFM 通过几层扩张卷积处理特征图 F,输出四个具有不同膨胀率的分支 B0、B1、B2、B4(图 4(a))。然后,这些分支由单个特征图 M = Concat (B0, B1, B2, B3) 连接,以从不同的感受野中捕获多尺度信息。

随后,引入挤压-激励(SE)注意机制[46]对重要通道进行优先排序,并通过

其中 SE 表示产生通道注意力向量 S 的块操作,操作 ⊙ 表示特征图 M 和注意力向量 S 的元素乘法。最后,最后结合空间分组增强(SGE)注意机制[47]来提高可表达性。输出特征图 O 通过整流线性单元 (ReLU) 激活方案发送。

我们注意到设计的模块使用三个顺序的3 × 3卷积分别模拟3 × 3、5 × 5和7 × 7核的接收域[48],因此它具有参数体积小、模型表示能力强的优点[48,49]。这样,ERFM在保持模型参数效率的同时,有效地增强了单光子图像的特征表示。

图4 模块的详细结构。(a) 是ERFM 的结构,(b) 是 BiFPN 的结构

3.2.2. 跨尺度特征融合网络

双边特征金字塔网络(BiFPN)是专门为解决单光子成像[50]的独特特征量身定制的。单光子图像的特点是低分辨率和稀疏特征信息,这就需要参与保留更多原始图像纹理和细节的较浅层。为此,BiFPN 在特征融合过程中结合了 P2 层,这对于捕获此类图像中更精细的细节至关重要。

如图 4(b) 所示,BiFPN 同时执行自上而下和自下而上的特征融合,丰富了每个特征级别的上下文信息。与YOLOv8[51]中的路径聚合网络相比,它在每个级别上从原始输入中添加了一个额外的边来输出,以在不增加大量成本的情况下融合更多的特征,并通过删除单个输入边的节点来简化网络。此外,加权和用于特征聚合,以区分每个输入特征对输出的贡献。

假设骨干网的特征提取过程包含i个不同的尺度特征映射。对于每个尺度 i,Pi 表示原始特征,Ci 表示自上而下的路径输出,Di 表示自下而上的路径输出。Ci和Di中的每个特征点都经过加权求和,

其中权重wi表示学习权重参数,Resize表示上采样和下采样的操作,设置ε = 0.0001以避免数值不稳定。BiFPN对于适应单光子图像带来的独特挑战至关重要,其中自适应加权确保最终表示中强调最相关的特征。

3.2.3.小目标检测头

为了提高模型对单光子图像中小目标和低分辨率目标的检测能力,我们将高分辨率P2层集成到BiFPN中。P2 层,原始图像大小的四分之一,提供低级特征图的详细信息,同时还从高级特征图中捕获语义信息,如图 3 所示。

鉴于原始 YOLOv8 旨在用于更高分辨率的 RGB 图像,并且没有针对检测单光子图像中的小物体进行优化,我们添加了一个专用的小目标检测头。这种为 160 × 160 分辨率开发的专用头对于检测在这些具有挑战性的低分辨率图像中占据少量像素的对象至关重要。

4.实验和结果

我们在自建单光子数据集和VisDrone2019公共数据集上进行了实验,以测试SEC中引入的ESP-YOLO的有效性。3.2.

4.1. 自建数据集上的实验

4.1.1.实验装置

单光子数据收集在我们的单光子成像系统上(见图5)。激光源发射波长为1550nm的激光脉冲,使用两个声光调制器来减少传输噪声。然后,MEMS反射镜用于开关角度来检测不同的像素,光束膨胀器将发散光束转换为平行光束,增强每个像素的横向分辨率。SPD探测器(QCD600C)接收从物体反射回来的光子,时间数字转换器根据响应产生时间戳,并由Raspberry Pi记录。FPGA 充当中央处理器来控制每个组件。在我们的实验中,每帧在整个扫描过程中以 200 ms 获得,一个像素只有 0.05 ms。我们在这里使用的激光功率小于50 mW。每帧平均每像素10个光子采集,信噪比超过20个。

我们收集了400组单光子数据,其中包含金字塔、球、长方体、桌子及其组合,距离为7m、9m、11m、13m和15m,方向角为10。因此,该数据集涵盖了广泛的检测场景,并以 6 : 2 的比例分为训练集、验证集和测试集。我们使用 PRS 网络 [32] 来重建空间分辨率为 64 × 64 的单光子图像。

ESP-YOLO 建立在 PyTorch 深度学习框架中,并在实验环境中的 NVIDIA GeForce RTX 4090 GPU 上进行训练。我们的ESP-YOLO基于YOLOv8架构的默认输入大小为640 × 640像素,在我们的实验中没有修改。采用YOLOv8[19]的LetterBox调整大小方法,实现了从原始64 × 64分辨率到640 × 640像素的调整大小。在训练过程中,训练 epoch 默认为 300,batchsize 为 16,提前停止设置为 50 个 epoch。随机梯度下降作为优化器。

4.1.2.评估指标

为了评估 ESP-YOLO 的性能,使用了几个评估指标,包括精度 (P)、召回率 (R)、平均精度 (mAP) 在交集超过并集 (IoU) 阈值 0.5 (mAP50) 时,IoU 阈值处的 mAP 范围从 0.5 到 0.95(mAP50:95)、APS、APM、和 APL。特别是,

其中真阳性(TP)表示正确检测到的对象的数量,假阳性(FP)表示错误的数量,假阴性(FN)表示检测过程中遗漏对象的数量。此外,AP 定义为

对于通过计算精确召回曲线下的面积获得的不同 IoU 阈值的平均精度。同时,mAP表示在数据集中存在的所有不同类别上计算的AP值的平均值,APS、APM和APL分别对应小对象、中、大对象的AP平均值。

除了前面提到的指标外,模型参数和浮点运算 (FLOPs) 也被引入作为评估模型性能的基准,因为它们可以深入了解模型的复杂性。

4.1.3。消融实验

如表1所示,在自建单光子成像数据集上,与YOLOv8相比,ESP-YOLO在P中增加了5.3%,在R中增加了8.7%,mAP50和mAP50:90提高了5.7%和3.8%。值得注意的是,它的APS得分为69.2%,表明它能够高精度地检测小物体。

然后从自建单光子成像数据集中选择的两种检测场景如图6所示,每个场景以不同的距离和不同的物体拍摄。首先,YOLOv8s 无法检测到金字塔,而 ESP-YOLO 成功检测到所有对象。其次,YOLOv8s错误地将一个立方体识别为金字塔,而ESP-YOLO正确识别立方体,证明了ESP-YOLO在单光子目标检测中的优异性能。

图5 用于生成自建数据集的单光子成像系统
图6 自建单光子成像测试集上的检测结果样本。(a)、(e)为真实场景,(b)、(f)为原始数据示意图,(c)、(g)为YOLOv8s的深度图检测结果,(d)、(h)分别为ESP-YOLO的深度图检测结果。

4.1.4。与其他单光子成像算法的比较

为了观察不同单光子成像算法对最终目标检测结果的影响,我们比较了经典的基于优化的Shin等人算法[3,52]、基于深度学习的非局部算法[29]和最先进的PRS网络算法[32](见表2)。比较分析表明,PRS网络算法在几个指标上获得了最高的性能,这表明其优越的成像精度对于目标检测至关重要,特别是对于特征信息本质上有限的小目标。此外,在相同的成像条件下,我们提出的ESP-YOLO算法展示了与YOLOv8s相比的增强检测能力,表明其在不同成像算法的鲁棒性和适应性。

4.1.5。与其他目标检测算法的比较

为了进一步评估ESP-YOLO的性能,我们将其与自建单光子数据集上的其他方法进行了比较。请注意,所有模型都使用预训练的权重进行训练。如表 3 所示,我们的 ESP-YOLO 的 mAP50 为 93.1%,mAP50:90 为 66.0%,APS 为 69.2%,APM 为 54.9%,在这些方法中获得了最高的值。值得注意的是,与Faster R-CNN和一阶段SSD的两阶段方法相比,ESP-YOLO的参数和FLOPs要少得多,但检测精度更高。此外,它在mAP50方面比其他YOLO系列至少提高了5%。总之,我们的模型在检测精度和模型复杂度之间取得了很好的平衡。

4.2.小物体数据集实验

4.2.VisDrone2019数据集

VisDrone2019 数据集面临小目标检测挑战,例如低分辨率和有限的特征表示,类似于单光子成像中的挑战,因此在这里用作性能测试。该数据集是一个公开可用的空中小物体数据集,由 10,209 个静止图像组成:6471 个用于训练,548 个用于验证,3,190 个用于测试。它包含十个预定义的目标类别,每个类别都有大量示例以确保全面性和代表性。基于常用的MS COCO[57]数据集中用于目标检测的绝对对象大小定义,我们在表4中总结了VisDrone数据集中大、中、小对象实例的统计结果。

4.2.2.实验结果和分析

VisDrone2019数据集测试集上的实验结果如表5所示。结果表明,ESP-YOLO在一系列指标上比YOLOv8s取得了更好的性能。与 YOLOv8s 相比,ESP-YOLO 的 mAP50 和 mAP50:90 分数提高了 4.6% 和 2.4%,APS 分数提高了 4.4%,清楚地证实了检测小物体的有效性。此外,它在 P 和 R 方面实现了更高的精度,它确立为在复杂条件下检测广泛对象的可靠且高效的模型。此外,APM 和 APL 的增加表明它不仅在小对象的上下文中而且在中型和大型对象上都优于 YOLOv8。

此外,图 7 展示了从 VisDrone2019 数据集中选择的三个代表性场景。在第一个场景中,YOLOv8 错误地将屏障分类为行人,而提议的 ESP-YOLO 则没有。此外,ERF-YOLO还成功地检测到了大目标例如树间隙中的汽车,而 YOLOv8 则没有。在第二个密集场景中,YOLOv8 忽略了几个电机,而 ESP-YOLO 成功地识别了这些目标。最后,在YOLOv8无法识别非常小的行人图的第三种场景中进行了说明,而ESP-YOLO可以。这些结果证实我们的 ESP-YOLO 适用于检测小物体。

图7所示。VisDrone2019测试集上的检测结果。(a)、(c)、(e)基于YOLOv8s,(b)、(d)、(e)分别基于ESP-YOLO

5.结论

我们提出了ESP-YOLO来检测单光子成像和小目标中的对象,并进行了大量的实验来验证我们的模型。我们发现,在我们的自建数据集和VisDrone数据集上,它比原来的YOLOv8具有更好的检测精度,成像精度越高,最终的目标检测结果越好。我们的工作有望帮助检测多尺度和结节目标以及单光子目标检测任务的进展。

虽然ESP-YOLO在单光子目标检测和小目标检测任务中表现出了令人印象深刻的能力,但它为未来的工作留下了空间。首先,ERFM 可以在网络的不同层中找到广泛的应用。其次,可以引入微调通道的技术来平衡 P2 层的计算效率和性能影响。最后,我们的单光子成像数据集的范围和多样性有限,因此扩大和丰富我们的数据集以供未来工作具有重要意义。

http://www.dtcms.com/a/406796.html

相关文章:

  • 网站编程入门php做外贸网站好吗
  • 网站制作排名php自己写框架做网站
  • VMware+RockyLinux+ikuai+docker+cri-docker+k8s 自用 实践笔记(二)
  • Lambda
  • html网站开发代码公司网页设计实例教程
  • MySQL异步I/O性能优化全解析
  • SQL 执行计划解析:从 EXPLAIN 到性能优化的完整指南
  • jupyter notebook继续学习
  • 力扣2381. 字母移位 II
  • 平和县建设局网站安徽经工建设集团网站
  • Vue 配置代理
  • CatCTF2022 web wp
  • 知乎免费阅读网站石家庄新闻综合频道节目回看
  • 做网站后台主要负责什么最新室内装修风格图片
  • 机器人行业灵巧手专题研究报告
  • hive SQL查询与函数
  • 网站维护 关站 seo百度首页广告
  • 搜索引擎的网站有哪些网页设计与网站建设 倪宝童
  • Prompt Optimizer 提示词优化器安装使用
  • 淘宝网站建设的优点app推广是什么工作
  • 【C++】23. C++11(上)
  • 第三方软件登记测评机构:【LoadRunner脚本录制与调试】
  • 摄影网站开发的背景西安网站 技术支持牛商网
  • A股大盘数据-20250925分析
  • 旋转设备状态监测传感器选型要点
  • echarts项目积累
  • VS2022调试技巧
  • Vue 3 组合式 API 生命周期钩子学习笔记
  • shardingsphere加载过程
  • MinerU介绍安装