基于边缘信息提取的遥感图像开放集飞机检测方法
Abstract
本文针对遥感图像中的开放集飞机检测问题展开研究,该任务要求模型能够在动态环境下,同时识别已知(经过训练)和未知(未经过训练)的目标类别。由于背景复杂且目标分辨率较低,难以在对应位置生成高质量的伪标签。为此,我们提出了一种基于边缘信息提取的开放集目标检测框架(Edge Information Extraction-based Open-Set Target Detection, EI-OSTD),通过在检测过程中引入边缘特征来增强对未知类别的检测能力。
EI-OSTD 框架包含两个关键组件:
(1) 自适应预选模块(adaptive pre-selection module):利用编码器的输出特征优化已知类别的候选框生成,从而提升检测精度;
(2) 伪标签选择策略(pseudo-label selection strategy):利用边缘信息为未知类别生成高质量的伪标签,从而提升未见目标(unseen targets)的召回率。
在 MAR20 和 SAR-AIRcraft1.0 数据集上的实验结果表明,EI-OSTD 不仅在已知类别检测方面保持了优异性能,而且在未知类别识别上显著优于现有方法。
关键词——开放集飞机检测;伪标签选择;候选框生成
Introduction
目标检测是图像处理领域中的一项关键任务,其目标是在图像中准确地定位并识别感兴趣的目标 [1]–[4]。在遥感领域中,可以从空中视角检测诸如车辆、船只和飞机等目标 [5]–[7]。近年来,随着深度学习的发展,卷积神经网络(CNN)逐渐成为遥感图像目标检测的主流方法 [1]、[8],其中包括以 Faster R-CNN 为代表的两阶段网络 [9]–[12],以及以 YOLO 为代表的一阶段网络 [13]–[17]。随着注意力机制的引入,以 Detection Transformer(DETR)[18]–[20] 为代表的新兴网络框架取得了具有竞争力的性能。
目标检测任务的训练标注通常针对感兴趣的对象。然而,标注的缺乏引发了开放集检测问题:模型在训练中未学习到的目标类别会在测试时被误识别为背景或已知类别 [21]、[22]。
根据训练图像中标注缺失的不同情况,开放集检测假设主要分为两种类型:UU(Unknown Unknown)和 UM(Unlabeled Mixed)[23]。其中,UU 假设指未知的新类别目标在训练图像中完全未出现,只会在测试阶段出现。
解决这种假设的方法类似于开放集识别 [24]–[26],即在训练时将所有训练类别和背景都视为已知类别,而置信度较低的目标会被拒绝并归为未知新类。
例如,OpenDet 利用对比学习压缩高密度已知类的特征,并引入一个未知概率学习器来显式建模未知类出现的可能性 [27]。PROB 在 DDETR [20] 的基础上,将目标性预测与类别预测解耦,从而避免依赖背景负样本,提升了开放集检测性能 [28]。UU 假设的潜在问题是新类别识别的范围可能过于宽泛,从而削弱检测任务的目标导向性。
这两个方法,都是把类别置信度低的物体作为新类别,而不是作为背景
另一方面,由于目标类型隐私以及标注成本等问题,UM 假设认为训练图像中的目标类型并未完全标注,即已知类别与未知类别在训练图像中共存。在此基础上,一些开放集检测算法会在可能存在未标注目标的区域生成候选框(伪标签),并将这些候选框视为未知新类参与训练,从而增强检测头对新类的识别能力。例如,OW-DETR 提出了一种基于注意力机制的伪标签生成方案,并引入了前景对象分支和未知类分类头 [29];(这是不是个东西?这个东西是什么?)
CAT 提出了自适应伪标签机制,结合模型驱动(已识别来的特征)和输入驱动(可能成为特征的突兀的物体)的建议,并在训练过程中动态调整权重 [30];
OPODet 在伪标签选择时引入具有方向感知能力的 RPN(区域建议网络),从而增强了对未知类的检测能力 [31]。从实际应用角度看,UM 假设更为常见,也因此获得了更多研究关注。此外,该假设还可以扩展到开放世界增量学习场景中,在该场景中目标对象的类别会被不断标注和扩充 [32]、[33]。
目前针对遥感图像的开放集目标检测研究仍然较少。在已有任务中,粗粒度检测任务的目标类型较多,当引入开放集假设时,由于其标注简单且完整,新类别识别的任务导向性较弱,因此更适合采用 UU 假设,而这并非本文的研究方向。相比之下,细粒度检测任务中的训练目标类型更加相似,且由于缺乏关于相关目标的充分先验知识或全面标注的高昂成本,标注难度更大。因此,细粒度遥感图像目标检测更适合采用 UM 假设,这也是本文研究的重点。在众多细粒度遥感检测任务中,飞机检测是一个典型示例,其机型多样但外观相似。因此,本文聚焦于遥感图像中的开放集目标检测方法,主要以飞机为研究对象。图 1 以飞机为例说明了开放集检测问题。
简单来说,UU假设就是防止把本来我们不关注的物体识别为已知物体,通过不同的方法,把其他类别,我们不关注的,放到背景里面。
UM 假设是把新的类别生成一个伪标签来学习。
Related Work
A. 基础网络框架
基线模型采用了 DETR 系列网络 [18],这是一种基于 Transformer 的目标检测框架 [37]。该网络由一个编码器和一个解码器组成,用于分别处理输入和输出序列。多头注意力机制能够捕获图像中的上下文关系,从而实现端到端的预测。DETR 在解码器中定义了一组固定的可学习查询(learnable queries),每个查询用于预测图像中的不同区域,以解决目标分布孤立的问题。经过训练后,网络能够自动关注特征丰富的区域,这有助于在未知类别检测中生成伪标签。
自注意力机制将查询与目标建立关联,省去了锚框(anchor boxes)和非极大值抑制(NMS)[38] 的过程,从而提高了检测的鲁棒性和推理速度。
然而,DETR 的设计目标是捕获图像中的所有目标,因此在所有特征像素上的注意力权重几乎相同。这导致每个查询需要花费更多时间学习稀疏但关键的位置,同时这种均匀的权重分布也会影响检测性能。为了解决这一问题,Deformable DETR(DDETR)[20] 引入了可变形注意力机制,使每个查询仅与部分像素交互,并为这些像素分配不同权重,从而加速收敛过程。
在本文中,DDETR 被用作基础检测框架。
B. 开放集检测机制
传统的目标检测(OD)主要关注从预定义的类别集合中识别物体。常见方法大体可分为两类:两阶段(two-stage)和单阶段(one-stage)。
两阶段方法(如 Faster R-CNN)首先生成候选区域,然后对这些区域进行分类,具有较高的检测精度但计算效率较低;单阶段方法(如 YOLO)在单一阶段中完成检测,推理速度更快,但精度通常略有下降。
近年来,基于 Transformer 的模型(如 DETR 和 Deformable DETR)逐渐取代传统 CNN 框架,在检测精度和可扩展性上都表现出优越性能。
然而,这些模型在检测训练中未出现的新类别时表现较差。
这一局限性促使研究者开始关注 开放集目标检测(Open-Set Object Detection, OSOD),其目标是在检测已知类别的同时识别未知类别。
早期的 开放集识别(Open-Set Recognition, OSR) 研究为 OSOD 奠定了基础,其主要思想是处理来自未见类别的输入。
OSR 方法通常会拒绝与已知类别差异较大的输入,将其标记为“未知”。
一个典型的例子是 OpenMax [39],该方法在 softmax 函数的基础上进行了调整,以适应未知类别。早期的 开放集识别(Open-Set Recognition, OSR) 研究为 OSOD 奠定了基础,其主要思想是处理来自未见类别的输入。
OSR 方法通常会拒绝与已知类别差异较大的输入,将其标记为“未知”。
一个典型的例子是 OpenMax [39],该方法在 softmax 函数的基础上进行了调整,以适应未知类别。
近期的研究进展包括:
LORD [40]:在训练过程中建模开放空间(open space),提高对未知类的识别能力;
基于对比学习的 OSR [41]:通过学习分离已知类与未知类;
CIOSR [42]:利用因果关系应对真实世界的挑战。
然而,这些方法主要关注分类任务,无法处理 OSOD 所需的目标定位问题。
近年来,OSOD 方法开始利用未匹配预测、注意力分数或对比学习机制来建模未知类别。例如:
**OW-DETR [29] **利用 Deformable DETR 中未匹配的预测结果与注意力图生成未知目标的伪标签,展现了 Transformer 架构在开放集检测中的潜力;
DDETR 的注意力引导结构同样为开放集检测提供了强大基础;
为优化伪标签选择,一些方法将 选择性搜索(Selective Search) [43] 与高注意力区域和生成框结合 [30],从而获得更鲁棒的伪标签(见图 2)。
