SOAR:利用状态空间模型和可编程梯度进行航空影像中小目标物体检测的进展
摘要
https://arxiv.org/pdf/2405.01699
航空影像中的小目标检测在计算机视觉领域面临着重大挑战,这是由于小尺寸目标固有的数据量极少,以及它们容易被较大目标和背景噪声遮挡。传统的基于Transformer的模型方法常常受到缺乏专门数据库的限制,这对其处理不同朝向和尺度目标的性能产生不利影响。这凸显了对更适应性强、轻量级模型的需求。对此,本文介绍了两种创新方法,显著增强了对航空小目标的检测和分割能力。首先,我们探索了在新引入的轻量级YOLO v9架构上使用SAHI框架,该架构利用可编程梯度信息(PGI)来减少在顺序特征提取过程中通常遇到的大量信息损失。本文采用了Vision Mamba模型,该模型结合位置嵌入以促进精确的位置感知视觉理解,并结合一种新颖的双向状态空间模型(SSM)进行有效的视觉上下文建模。这种状态空间模型巧妙地利用了CNN的线性复杂度和Transformer的全局感受野,使其在遥感图像分类中特别有效。我们的实验结果证明了检测准确性和处理效率的显著改进,验证了这些方法在各种航空场景中实时小目标检测的适用性。本文还讨论了这些方法如何作为未来航空目标识别技术进步的基础模型。源代码将在此处提供:https://github.com/yash2629/S.O.A.R。
索引术语—小目标检测、视觉Transformer、状态空间模型、遥感、YOLO、图像处理、Mamba、监督学习、神经网络
I. 引言
对象检测是许多应用的基础组件,从视频监控到智能交通管理和数字城市基础设施,对象检测在单个帧或图像中识别目标对象。这些特性对许多计算机视觉应用至关重要。最大的挑战似乎是小目标检测。如果一个对象在视频帧中显得很小,通常是因为它是从远处监控的,那么它就被认为是小的。它们的小尺寸有时会导致它们被误认为是噪声,这对跟踪精度产生不利影响。根据MS-COCO[1]度量评估标准,小目标被定义为面积为32×3232\times3232×32像素或更小的目标,这是包括常见对象的数据集中常用的阈值。已经开发了一些模型来帮助解决这个特定问题,并且对其的持续改进也在进行中。
虽然目前可用的定向航空检测器的结果令人鼓舞,但它们主要集中在朝向建模上,而对目标尺寸的关注较少。使用对象检测来识别边界框所包含的区域是理解图像中对象的有用方法,通过解释这些对象是什么以及它们在哪里。使用没有角度朝向的矩形边界框,也称为水平边界框(HBB),是标准程序。模型必须能够准确定位对象并识别其类别,以将其包含在HBB内。
然而,这种方法在检测定向航空对象时特别不成功;更多的噪声和背景将被包含在内,这可能导致误检测;对象无法被正确定位。因此,引入了产生定向边界框(OBB)的对象检测器。现有技术有助于创建能够精确包围定向对象的高效OBB检测器。改进特征[2]-[4]、建议提取[5][8]、朝向对齐[7]、[9]和回归损失设计[10]–[12]是属于此类别的一些方法。
尽管性能有所提高,但由于多尺度预测、浅层和深层网络的结合,以及针对大尺度目标识别的更多损失函数,而小目标被忽视,小目标检测的工作仍在继续。考虑到这一点,鼓励在具有多尺度特征融合的新模型上开展工作。
沿着相同的路径适应,该模型从这些发展中汲取灵感,并且必须更多地关注通过多尺度检测来表达小目标的物理信息,以实现准确的小目标检测。为了预测小目标,算法将需要结合更深的主干网络和额外的尺度。特征金字塔的概念可以更合理地应用于表达浅层网络的物理信息和深层网络的语义属性。但以前已经注意到,这可能导致主干网络变深、网络参数增长以及计算量增加等问题。当然可以进一步努力增强主干网络,在保持高检测精度的同时实现更快的检测速率。
虽然深度学习架构的使用已经导致了非常准确的技术的发展,如RetinaNet[13]、VarifocalNet[14]、Cascade R-CNN[15]和Faster R-CNN[16],但这些技术并非没有变化。所有这些新检测器都在流行的数据集上进行测试和训练,例如MS_COCO[1]、Pascal VOC12[17]和ImageNet[18]。这些数据集主要由低分辨率照片(640 x 480)组成,其中包含具有广泛像素覆盖率的大目标,通常覆盖图像高度的60%。这些发展使得能够满足检测、观察、识别和识别(DORI)[19]要求的远距离目标检测成为可能。建议进行切片以保持更高的内存利用率,同时帮助高分辨率照片上小目标检测的推理和微调。为了创建检测,使用锚框并将特征金字塔上的每个点[20]分类为背景或前景。然后直接预测前景点与真实边界框四个角之间的距离。
谈到更多关于小目标检测,YOLO系列是最流行的实时目标检测器,目前是实时目标检测的标准。YOLOv7过去曾用于小目标识别,并在各种计算机视觉任务和环境中显示出成功。由于上述创新技术,新引入的YOLOv9被认为是新一代最佳实时目标检测器。当与SAHI结合时,可以显著增强新模型相对于其前辈的能力。
已经发现,通用切片支持可以应用于任何正在使用的对象检测器顶部的推理管道,从而有助于其微调。以这种方式,切片辅助推理在不需要微调的情况下提高了任何市场上对象检测器的小目标检测性能,并且在将切片辅助超推理方案集成到任何对象检测推理管道中时不需要预训练。此外,优化预训练模型带来了额外的性能优势。
贡献回顾:
-
YOLOv9,一个新的航空影像平台,在DOTA上部署。它通过结合切片辅助超推理管道适配器与预训练方案,改进了先前的工作。
-
提出了一种用于动态小体目标检测的新框架,并使用SOAR在Vision Mamba架构上进行实验验证。
-
提出了一种新颖的框架,将可编程梯度信息与状态空间模型表示融合,用于有效的视觉和计算机视觉任务设置。
II. 相关工作
近年来,目标检测研究在创新方法和算法的推动下取得了显著进展,这些方法和算法专门针对特定挑战。本节回顾了相关文献,重点关注提高目标检测性能,特别是在涉及小或远距离目标的场景中。
区域卷积神经网络(RCNN)是最早成功检测目标的深度学习方法之一。该性能是通过两个见解实现的。第一个见解是将高容量卷积神经网络应用于自下而上的区域建议,以定位和分割目标。第二个见解是在标记训练数据稀缺时训练大型CNN的范式。此外,早期工作将手工制作的特征与基于深度学习的特征相结合,以增强目标检测,从YOLOv3架构内的保护伞开始。通过利用卷积神经网络(CNN)的分层表示和存储在手工制作特征中的领域特定信息,该方法克服了先前技术的局限性。通过对用于特征注入的卷积层进行仔细选择和改进特征组合,在PASCAL-VOC和MS-COCO等基准数据集上,与YOLOv3相比,平均精度(mAP)观察到了显著改进。该研究强调了目标检测中特征融合技术的潜力,展示了检测鲁棒性和准确性的显著提升。
另一项重要贡献来自MSFYOLO算法。该算法通过在FPN[20]架构内集成用于特征再融合的侧路径,基于PANET[21]框架,增强了小目标检测。通过深思熟虑的损失函数设计和广泛测试,MSFYOLO在具有挑战性的条件下优于现有方法,如YOLOv5和RetinaNet,表现出鲁棒性和高帧率(FPS)[20]。该算法的有效性使其适用于现实世界应用,其中效率和准确性都至关重要,涵盖工业检测、自动驾驶、监控和医疗成像等领域。
针对监控影像中检测小和远距离目标的挑战,SAHI框架引入了切片辅助超推理方法。该方法无缝集成到现有目标检测系统中,无需预训练,通过在微调和推理过程中将输入图像切片成重叠块来增强小目标的可检测性。实验评估表明,在多个数据集和检测器上,特别是对于小目标,平均精度(AP)有显著改进。SAHI为监控应用中的小目标检测提供了实用解决方案,对各个领域都有潜在影响。
最后,关于多尺度Faster-RCNN[16]的研究解决了机器视觉中小目标检测的挑战。利用多尺度特征提取,所提出的方法与Faster-RCNN[16]相比,在小目标检测方面表现出优越性,通过实验评估和现实场景验证。该研究强调了应对小目标检测挑战的重要性,并提出了未来探索的方向,例如采用生成对抗网络(GANs)等先进技术。
总的来说,这些研究代表了目标检测领域的重大进展,提供了各种方法和算法,专门用于提高检测性能,特别是在涉及小或远距离目标的场景中。
III. 方法
A. 预备知识
状态空间模型(SSM)旨在表征一维函数或序列,其中u(t)∈Ru(t)\in\mathbb{R}u(t)∈R通过隐藏状态z(t)∈RNz(t)\in\mathbb{R}^{N}z(t)∈RN映射到v(t)∈Rv(t)\in\mathbb{R}v(t)∈R。使用E作为演化参数,F和G作为投影参数,系统通过以下方程运行:
z(t)=Ez(t)+Fu(t),v(t)=Gz(t)z(t)=E z(t)+F u(t),\quad v(t)=G z(t)z(t)=Ez(t)+Fu(t),v(t)=Gz(t)
为了离散化连续参数,采用时间尺度参数∆,这种技术通常称为零阶保持,表示如下:
E‾=exp(ΔE),F‾=(ΔE)−1(exp(ΔE)−I)⋅ΔF\overline{{E}}=\exp(\Delta E),\quad\overline{{F}}=(\Delta E)^{-1}(\exp(\Delta E)-I)\cdot\Delta F E=exp(ΔE),F=(ΔE)−1(exp(ΔE)−I)⋅ΔF
原始方程的离散化版本表示为:
zt=Ezt−1+Fut,vt=Gztz_{t}=E z_{t-1}+F u_{t},\quad v_{t}=G z_{t}zt=Ezt−1+Fut,vt=Gzt
这些方程中使用了一个∆步长。
最后,模型通过全局卷积计算输出:
K=(GF‾,GEF‾,…,GEM−1F‾),v=u∗K,K=(G\overline{{F}},G\overline{{E F}},\ldots,G\overline{{E^{M-1}F}}),\quad v=u*K,K=(GF,GEF,…,GEM−1F),v=u∗K,
其中M表示序列长度,K∈RMK\in\mathbb{R}^{M}K∈RM表示结构化卷积核。
B. 可编程梯度信息
YOLOv8模型在图像中的小目标方面面临问题。最小像素目标难以准确表示,因为模型的感受野可能无法捕获足够的信息。根据信息瓶颈原理,数据在通过变换时会导致信息损失,如公式(5)所示。
I(X,X)≥I(X,f(X))≥I(X,gϕ(fθ(X)))I(X,X)\geq I(X,f(X))\geq I(X,g_{\phi}(f_{\theta}(X)))I(X,X)≥I(X,f(X))≥I(X,gϕ(fθ(X)))
其中X表示数据,I表示互信息,f和g是变换方程,θ和φ分别是f和g的参数。
以下信息用于说明随着网络层数的增加,原始数据将会有损失。为了减少这种信息损失,使用了可逆函数,如公式(6)所示:
I(X,X)=I(X,rψ(X))=I(X,vζ(rψ(X)))I(X,X)=I(X,r_{\psi}(X))=I(X,v_{\zeta}(r_{\psi}(X)))I(X,X)=I(X,rψ(X))=I(X,vζ(rψ(X)))
其中ψ和ζ\zetaζ是r和v的参数,对于上述方法在轻量级模型上的应用,使用了信息瓶颈的概念。其公式为:
I(X,X)≥I(Y,X)≥I(Y,fθ(X))≥…≥I(Y,Y^)I(X,X)\geq I(Y,X)\geq I(Y,f_{\theta}(X))\geq\ldots\geq I(Y,\hat{Y})I(X,X)≥I(Y,X)≥I(Y,fθ(X))≥…≥I(Y,Y^)
其中$I(Y,X)1只占用1只占用1只占用I(X,X)$的一小部分。为了应对所有上述问题,使用了可编程梯度信息方法,该方法使用辅助可逆分支和多级辅助信息。
YOLOv9[22]模型还使用了由ELAN[23]和CSPNet[24]组合而成的广义ELAN网络。为了改进通常在大型数据集中对小目标的学习,使用了超推理。它应用于YOLOv9模型顶部进行目标检测,提供通用的切片辅助推理和微调管道。切片辅助超推理[25]将图像分割成重叠块,从而为小目标产生更大的像素区域。它是一个两部分过程,结合了切片辅助微调和切片辅助超推理。在微调过程中,通过提取块并将其调整为更大的图像来扩大数据。每张图像IF1,IF2,…,IFjI_{F1},I_{F2},\ldots,I_{F j}IF1,IF2,…,IFj被切成重叠块PF1,PF2,…,PFkP_{F1},P_{F2},\ldots,P_{F k}PF1,PF2,…,PFk:尺寸M和N在预定义范围[Mmin,Mmax][M_{\mathrm{min}},M_{\mathrm{max}}][Mmin,Mmax]和[Nmin,Nmax][N_{\mathrm{min}},N_{\mathrm{max}}][Nmin,Nmax]内选择,这些被视为超参数。然后调整块的大小,注意保持纵横比,与原始图像相比,这导致目标尺寸更大,而在推理过程中,图像被分成较小的块,然后对每个独立块应用目标检测前向传递。最后,将重叠的预测结果合并到原始图像中。

C. 整体架构
所提出的SOAR编码器概览如图1所示。为了简化视觉数据的处理,我们首先将2D图像I∈⌣RH×W×CI\stackrel{\smile}{\in}\mathbb{R}^{H\times W\times C}I∈⌣RH×W×C转换为展平的2D块P∈RJ×(S2⋅C)P\in\mathbb{R}^{J\times(S^{2}\cdot C)}P∈RJ×(S2⋅C),其中(H, W)表示输入图像的尺寸,C表示通道数,S表示图像块的大小。随后,对PPP进行线性投影到维度为D的向量,使用公式将位置嵌入Epos∈R(J+1ˇ)×DE_{\mathrm{pos}}\in\mathbb{R}^{(\check{J+1})\times D}Epos∈R(J+1ˇ)×D集成:
V0=[Vcls;VP1⋅Z;VP2⋅Z;…;VPJ⋅Z]+EposV_{0}=[V_{\mathrm{cls}};V_{P}^{1}\cdot Z;V_{P}^{2}\cdot Z;\ldots;V_{P}^{J}\cdot Z]+E_{\mathrm{pos}}V0=[Vcls;VP1⋅Z;VP2⋅Z;…;VPJ⋅Z]+Epos
这里,VclsV_{\mathrm{cls}}Vcls表示类别标记,VPjV_{P}^{j}VPj表示I的第j个块,Z∈R(S2⋅C)×DZ\in\mathbb{R}^{(S^{2}\cdot C)\times D}Z∈R(S2⋅C)×D表示可学习的投影矩阵,J表示块的总数。此过程有助于准备图像数据以进行后续分析,通过位置嵌入嵌入上下文信息。受Vision Mamba[26]和ViT[2]的启发,然后将标记序列Vl−1V_{l-1}Vl−1转发到SOAR编码器的第l层,以生成VloV_{l}^{o}Vlo。在SOAR编码器中,输入标记序列Vl−1V_{l-1}Vl−1通过归一化层进行归一化。随后,归一化序列被线性投影到x和z,维度大小为E。接着,x在正向和反向两个方向上进行处理,如公式(1)所示。对于每个方向,对x应用一维卷积,产生xo′x_{o}^{\prime}xo′。随后,xo′x_{o}^{\prime}xo′被线性投影到Fo,GoF_{o},G_{o}Fo,Go和Δo\Delta_{o}Δo,如公式(2)所示。此Δo\Delta_{o}Δo随后用于获取Fo,EoF_{o},\;E_{o}Fo,Eo,在此之后,Vforward和VbackwardV_{\mathrm{backward}}Vbackward由状态空间模型处理。
Q=Norm(VLo)Q=\operatorname{Norm}(V_{L}^{o})Q=Norm(VLo)
T=MLP(Q)T=\operatorname{MLP}(Q)T=MLP(Q)
进一步提出并在解码器块顶部融合可编程梯度信息层,该块由MLP头组成,并作为将这些新颖架构融合的有前途的未来工作进行探索。
IV. 实验与结果
在本节中,我们通过定量和定性实验评估我们的神经图形检索代理框架,旨在评估其在各种复杂任务中的性能和多功能性。
A. 实验设置
我们在PyTorch中实现了我们的方法。我们使用了2台配备24GB GPU服务器的机器。由于模型太大,无法适应我们可用的单个GPU,因此我们使用了分布式数据并行(DDP)技术进行多机训练。
B. 数据集
用于小目标检测和跟踪的数据集对于评估和基准测试该领域各种算法的性能至关重要,本研究依赖于DOTA[28]提供的全面和多样化数据集,特别是DOTAv1.5。DOTA是一个用于航空图像目标检测的大型数据集。它可以应用于航空图像目标检测器的开发和评估。图像从各种平台和传感器收集。每张图像的像素尺寸范围从800x800到 20,000x20,000800\mathrm{~x~}800\mathrm{~到~}20,000\mathrm{~x~}20,000800 x 800 到 20,000 x 20,000像素。DOTA-v1.5图像的来源包括中国资源卫星数据与应用中心、谷歌地球、GF-2和JL-1卫星,以及来自CycloMedia B.V.的航空照片。DOTA由灰度和RGB图像组成。灰度图像来自GF-2和JL-1卫星图像的全色波段,而RGB图像来自谷歌地球和CycloMedia。每张图像以’png’格式保存。DOTA-v1.5中的目标类型包括飞机、船舶、储罐、棒球场、网球场、篮球场、地面跑道、港口、桥梁、大型车辆、小型车辆、直升机、环岛、足球场、游泳池和集装箱起重机。数据集中共有1869张图像,包括1410张训练集、438张验证集和21张测试集。应用了灰度预处理。我们使用dota开发工具包将标签从dota格式转换为coco格式。

C. 实现细节
在我们的论文中,我们采用固定输入图像尺寸为224×224,并实现数据增强技术,包括随机裁剪、翻转、光度失真、mixup、cutMix等。图像通过二维卷积(核大小为16(k=16)(\mathrm{k}=16)(k=16),步长为8(s=8)8(\mathrm{s}=8)8(s=8))处理成序列数据。位置编码由随机初始化的可学习参数表示。对于监督训练,我们采用交叉熵损失函数,并使用AdamW优化器,初始学习率为5e-4,权重衰减为0.05。学习率使用余弦退火调度器进行衰减,并进行线性预热。训练批次大小设置为16、32和64,训练过程总共跨越200个周期,如图4所示。我们采用精确度(P)、召回率(R)和F1分数(F1)作为性能指标,如图2所示。



D. 结果与讨论
本研究在航空影像小目标检测方面取得了实质性进展,通过在YOLO v9上应用SAHI框架,以及结合双向状态空间模型的Vision Mamba模型。这些创新有效解决了被背景噪声遮挡的小目标检测挑战,提高了检测准确性和计算效率。可编程梯度信息(PGI)和位置嵌入的集成允许进行细致的、位置感知的分析,非常适合遥感和计算机视觉任务设置。这些发现证明了这些轻量级和适应性强的模型作为未来航空目标识别和其他复杂视觉任务基础技术的潜力。随着我们继续完善这些方法,它们有望显著影响计算机视觉的发展,特别是在资源有限的场景中。

V. 结论
本研究在航空影像小目标检测方面取得了实质性进展,通过在YOLO v9上应用SAHI框架,以及结合双向状态空间模型的Vision Mamba模型。这些创新有效解决了被背景噪声遮挡的小目标检测挑战,提高了检测准确性和计算效率。可编程梯度信息(PGI)和位置嵌入的集成允许进行细致的、位置感知的分析,非常适合遥感和计算机视觉任务设置。这些发现证明了这些轻量级和适应性强的模型作为未来航空目标识别和其他复杂视觉任务基础技术的潜力。随着我们继续完善这些方法,它们有望显著影响计算机视觉的发展,特别是在资源有限的场景中。

