当前位置：首页 > news >正文

【论文精读】Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

news 2025/9/29 13:16:44

论文标题：Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
作者：Qi Fan, Wei Zhuo, Chi-Keung Tang, Yu-Wing Tai
发表会议：CVPR 2020
论文链接：https://openaccess.thecvf.com/content_CVPR_2020/papers/Fan_Few-Shot_Object_Detection_With_Attention-RPN_and_Multi-Relation_Detector_CVPR_2020_paper.pdf
代码与数据集：https://github.com/fanq15/Few-Shot-Object-Detection-Dataset
关键词：小样本目标检测（Few-Shot Object Detection, FSOD）、注意力机制（Attention Mechanism）、区域建议网络（Region Proposal Network, RPN）、多关系检测器（Multi-Relation Detector）、对比训练（Contrastive Training）、支持集与查询集（Support-Query Pair）、特征匹配（Feature Matching）、跨域泛化（Cross-Domain Generalization）

一、文章背景：从“数据饥渴”到“小样本学习”

传统的目标检测模型（如Faster R-CNN、YOLO、SSD等）依赖于大量高质量标注数据进行训练。然而，在现实世界中，获取大量标注数据不仅成本高昂，而且在某些特定领域（如罕见动物、医疗影像、工业缺陷检测）几乎不可行。因此，如何让模型在仅提供少量样本（Few-Shot）的情况下，快速识别并定位新类别的目标，成为计算机视觉领域的重要研究方向。

本文提出了一种全新的小样本目标检测（Few-Shot Object Detection, FSOD）框架，旨在仅用几个标注样本，就能检测出图像中从未见过的物体类别。该方法的核心创新在于：

Attention-RPN：基于注意力机制的区域建议网络，能够根据支持图像（Support Image）动态筛选候选区域；
Multi-Relation Detector：多关系检测器，通过多种匹配关系增强模型对正负样本的区分能力；
Contrastive Training Strategy：对比式训练策略，使模型在训练阶段就学会区分“同类”与“异类”；
FSOD数据集：作者构建了一个包含1000个类别的高质量小样本检测数据集，为后续研究提供了重要基准。

二、问题定义：什么是小样本目标检测？

小样本目标检测的任务可以形式化为：给定一个支持图像 $s_c$ ，其中包含某个目标类别的清晰示例（通常是一个带标注框的局部图像），以及一个查询图像 $q_c$ ，该图像可能包含多个属于支持类别 c 的目标实例，模型需要在查询图像中准确地定位所有同类目标。

如果支持集中包含 N 个类别，每个类别有 K 个样本，则该任务被称为 N-way K-shot detection。例如，5-way 1-shot 表示模型需要同时识别5个新类别，每个类别仅提供1个样本。

这一任务的关键挑战在于：

如何在没有类别先验知识的情况下，定位新类别的目标？
如何在复杂背景中抑制误检？
如何从极少量样本中提取具有泛化能力的特征？

三、核心方法：Attention-RPN + Multi-Relation Detector

3.1 整体架构

论文提出的网络架构如图所示：

该网络架构中查询图像和支持图像通过权重共享的骨干网络处理。Attention-RPN模块根据支持类别过滤候选区域。Multi-Relation Detector模块进一步匹配查询候选框与支持目标。对于N-way训练，网络扩展为多个支持分支。

整个系统基于Faster R-CNN框架，但引入了两个关键模块：

Attention-RPN：改进区域建议网络（RPN），使其能根据支持图像动态调整候选框生成；
Multi-Relation Detector：替换原Faster R-CNN的分类头，通过多关系匹配机制进行类别判别。

网络采用权重共享结构，查询图像和支持图像通过同一个骨干网络（如ResNet-50）提取特征，确保特征空间对齐。

3.2 Attention-RPN：让RPN“看见”支持图像

传统RPN是类别无关的（class-agnostic），它只能判断某个区域是否为“物体”，但无法区分属于哪个类别。在小样本场景下，这会导致大量无关候选框被送入检测器，增加误检风险。

为此，作者提出 Attention-RPN，其结构如图所示：

该结构支持特征经平均池化后得到1×1×C向量，与查询特征进行逐通道相关运算，生成注意力图，用于指导RPN生成候选框。

工作原理：

支持图像特征 $X\in \mathbb{R}^{S\times S\times C}$ 经过全局平均池化，得到 1×1×C 的向量；
该向量作为“核”，在查询图像特征图 $Y\in \mathbb{R}^{H\times W\times C}$ 上进行逐通道互相关（depth-wise cross correlation）；
得到的注意力图 G 被送入RPN，用于生成候选框。

公式表示：

该机制使得RPN在生成候选框时，优先关注与支持图像特征相似的区域，从而显著提升候选框质量。

实验验证：

Recall@100 IoU=0.5：Attention-RPN 达到 0.9130，优于传统RPN的 0.8804；
ABO（Average Best Overlap）：Attention-RPN 为 0.7282，优于传统RPN的 0.7127。

这表明Attention-RPN能生成更多高质量候选框，为后续检测奠定基础。

3.3 Multi-Relation Detector：多维度匹配机制

即使RPN生成了高质量候选框，检测器仍需判断这些候选框是否真正属于支持类别。为此，作者设计了 Multi-Relation Detector，如图所示：

该检测器包含三个并行的“关系头”（Relation Heads），分别从不同粒度建模查询候选框与支持图像之间的相似性：

关系头	作用	特点
Global Relation Head	全局特征匹配	使用全局平均池化后的特征进行匹配，适合整体外观相似的目标
Local Relation Head	像素级匹配	计算支持图像与候选区域之间的逐像素相关性，对局部细节敏感
Patch Relation Head	块状匹配	将图像划分为多个patch，建模“一对多”匹配关系，适合纹理复杂的目标

消融实验结果：

实验表明，Local Relation Head 单独表现最好，但三者联合使用能获得最佳性能，说明不同关系头具有互补性。

3.4 对比式训练策略：2-Way Contrastive Training

传统训练方式仅匹配“同类”样本对（如 $\left ( q_c, s_c \right )$ ），但忽略了“异类”样本的区分能力。为此，作者提出 2-Way Contrastive Training 策略。

训练三元组构建：

随机选择：

一个查询图像 $q_c$ （含类别 c 的目标）
一个正支持图像 $s_c$ （同类别）
一个负支持图像 $s_n$ （不同类别，n≠c）

构成三元组 $\left ( q_c, s_c, s_n \right )$ 。

匹配对设计：

正匹配对：前景候选框 + 正支持图像 $\left ( p_f, s_p \right )$
负匹配对：背景候选框 + 正支持图像 $\left ( p_b, s_p \right )$
负匹配对：任意候选框 + 负支持图像 $\left ( p, s_n \right )$

训练时，按 1:2:1 的比例采样这三类匹配对，计算二元交叉熵损失。

实验效果：

结果表明，①. 2-way 1-shot对比训练与传统的1-way 1-shot训练相比，使AP50提升了 7.9%，验证了对比式训练策略的有效性。②. 不同的训练策略中，2-way 5-shot对比训练获得最佳性能。③. 5-way并没有比2-way训练策略产生更好的性能，表明在训练模型以区分不同类别时，仅一个负支持类别就可以。

四、FSOD数据集：首个大规模小样本检测基准

为推动小样本目标检测研究，作者构建了 FSOD（Few-Shot Object Detection）数据集。

4.1 数据集构建流程

数据来源：整合 MS COCO、ImageNet、Open Images 等数据集；
标签统一：合并语义相同的类别（如“polar bear”与“ice bear”）；
质量筛选：去除标注错误、边界框过小（<0.05%图像面积）的样本；
划分策略：训练集800类，测试集200类，类别完全不重叠，确保评估模型泛化能力。

FSOD标签树如上图所示。ImageNet类别（红圈）与Open Images类别（绿圈）融合，形成统一的层级结构。

文中将来自不同数据集的类别进行语义对齐，从而构建一个统一的、无歧义的标签体系，为跨数据集融合奠定基础。

4.2 数据集统计

FSOD数据集共1000类，66,502张图像，182,591个标注框。

4.3 数据集特点

高多样性：涵盖83个父类（如哺乳动物、服装、武器等）；
挑战性强：测试集中26.5%的图像包含≥3个目标；
类别不重叠：训练与测试类别完全分离，真正考验泛化能力。

FSOD数据集中大多数类别样本数在22~108之间，符合小样本设定。

五、实验结果：SOTA性能

5.1 定性结果展示

可以直观看到模型的强大泛化能力：仅凭一个支持样本，模型就能在复杂场景中准确检测出多个同类目标，且几乎没有误检。

5.2 与SOTA方法对比

本文方法无需进一步的训练和微调，即可获得SOTA性能。

5.3 与SOTA方法对比（ImageNet Detection数据集）

本文方法提升超过30个百分点，达到新的SOTA水平。

5.4 与SOTA方法对比（MS COCO数据集）

在MS COCO数据集上的性能对比显示，本方法在未针对COCO微调的情况下，仍取得优异表现。

Tips：本文方法不仅在自建FSOD数据集上表现优异，还能无缝迁移到其他主流检测数据集，展现出强大的跨域泛化能力。

5.5 消融实验总结

Attention-RPN 提升AP50约2.0%；
Multi-Relation Detector 提升AP50约5.0%；
对比训练策略提升AP50约7.9%；
三者结合实现端到端无需微调的小样本检测。

六、总结与启示

核心贡献

提出 Attention-RPN，首次将支持信息引入RPN，提升候选框质量；
设计 Multi-Relation Detector，通过多粒度匹配增强判别能力；
引入 对比训练策略，使模型学会区分“同类”与“异类”；
构建 FSOD数据集，为小样本检测提供新基准。

意义与影响

本文是首个无需微调的小样本目标检测框架；
开启了“匹配式检测”新范式，后续许多工作（如FSCE、Dense Teacher）均受其启发；
所提数据集成为小样本检测领域的重要基准。

主要参考文献

[1] Snell et al., Prototypical Networks for Few-shot Learning, NeurIPS 2017
[9] Ren et al., LSTD: A Low-Shot Transfer Detector, CVPR 2018
[13] Lin et al., Microsoft COCO: Common Objects in Context, ECCV 2014
[25] Ren et al., Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, NeurIPS 2015
[37] Vinyals et al., Matching Networks for One Shot Learning, NeurIPS 2016
[61] Rosenberg et al., Incremental Few-Shot Object Detection, CVPR 2019

查看全文

http://www.dtcms.com/a/420220.html