当前位置: 首页 > news >正文

【论文精读】Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

论文标题Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
作者:Qi Fan, Wei Zhuo, Chi-Keung Tang, Yu-Wing Tai
发表会议:CVPR 2020
论文链接
https://openaccess.thecvf.com/content_CVPR_2020/papers/Fan_Few-Shot_Object_Detection_With_Attention-RPN_and_Multi-Relation_Detector_CVPR_2020_paper.pdf
代码与数据集https://github.com/fanq15/Few-Shot-Object-Detection-Dataset

关键词:小样本目标检测(Few-Shot Object Detection, FSOD)、注意力机制(Attention Mechanism)、区域建议网络(Region Proposal Network, RPN)、多关系检测器(Multi-Relation Detector)、对比训练(Contrastive Training)、支持集与查询集(Support-Query Pair)、特征匹配(Feature Matching)、跨域泛化(Cross-Domain Generalization)


一、文章背景:从“数据饥渴”到“小样本学习”

传统的目标检测模型(如Faster R-CNN、YOLO、SSD等)依赖于大量高质量标注数据进行训练。然而,在现实世界中,获取大量标注数据不仅成本高昂,而且在某些特定领域(如罕见动物、医疗影像、工业缺陷检测)几乎不可行。因此,如何让模型在仅提供少量样本(Few-Shot)的情况下,快速识别并定位新类别的目标,成为计算机视觉领域的重要研究方向。

本文提出了一种全新的小样本目标检测(Few-Shot Object Detection, FSOD)框架,旨在仅用几个标注样本,就能检测出图像中从未见过的物体类别。该方法的核心创新在于:

  1. Attention-RPN:基于注意力机制的区域建议网络,能够根据支持图像(Support Image)动态筛选候选区域;
  2. Multi-Relation Detector:多关系检测器,通过多种匹配关系增强模型对正负样本的区分能力;
  3. Contrastive Training Strategy:对比式训练策略,使模型在训练阶段就学会区分“同类”与“异类”;
  4. FSOD数据集:作者构建了一个包含1000个类别的高质量小样本检测数据集,为后续研究提供了重要基准。

二、问题定义:什么是小样本目标检测?

小样本目标检测的任务可以形式化为:给定一个支持图像 s_c,其中包含某个目标类别的清晰示例(通常是一个带标注框的局部图像),以及一个查询图像 q_c​,该图像可能包含多个属于支持类别 c 的目标实例,模型需要在查询图像中准确地定位所有同类目标。

如果支持集中包含 N 个类别,每个类别有 K 个样本,则该任务被称为 N-way K-shot detection。例如,5-way 1-shot 表示模型需要同时识别5个新类别,每个类别仅提供1个样本。

这一任务的关键挑战在于:

  • 如何在没有类别先验知识的情况下,定位新类别的目标?
  • 如何在复杂背景中抑制误检?
  • 如何从极少量样本中提取具有泛化能力的特征?

三、核心方法:Attention-RPN + Multi-Relation Detector

3.1 整体架构

论文提出的网络架构如图所示:

该网络架构中查询图像和支持图像通过权重共享的骨干网络处理。Attention-RPN模块根据支持类别过滤候选区域。Multi-Relation Detector模块进一步匹配查询候选框与支持目标。对于N-way训练,网络扩展为多个支持分支。

整个系统基于Faster R-CNN框架,但引入了两个关键模块:

  • Attention-RPN:改进区域建议网络(RPN),使其能根据支持图像动态调整候选框生成;
  • Multi-Relation Detector:替换原Faster R-CNN的分类头,通过多关系匹配机制进行类别判别。

网络采用权重共享结构,查询图像和支持图像通过同一个骨干网络(如ResNet-50)提取特征,确保特征空间对齐。


3.2 Attention-RPN:让RPN“看见”支持图像

传统RPN是类别无关的(class-agnostic),它只能判断某个区域是否为“物体”,但无法区分属于哪个类别。在小样本场景下,这会导致大量无关候选框被送入检测器,增加误检风险。

为此,作者提出 Attention-RPN,其结构如图所示:

该结构支持特征经平均池化后得到1×1×C向量,与查询特征进行逐通道相关运算,生成注意力图,用于指导RPN生成候选框。

工作原理
  1. 支持图像特征 X\in \mathbb{R}^{S\times S\times C} 经过全局平均池化,得到 1×1×C 的向量;
  2. 该向量作为“核”,在查询图像特征图 Y\in \mathbb{R}^{H\times W\times C} 上进行逐通道互相关(depth-wise cross correlation);
  3. 得到的注意力图 G 被送入RPN,用于生成候选框。
公式表示

该机制使得RPN在生成候选框时,优先关注与支持图像特征相似的区域,从而显著提升候选框质量

实验验证
  • Recall@100 IoU=0.5:Attention-RPN 达到 0.9130,优于传统RPN的 0.8804
  • ABO(Average Best Overlap):Attention-RPN 为 0.7282,优于传统RPN的 0.7127

这表明Attention-RPN能生成更多高质量候选框,为后续检测奠定基础。


3.3 Multi-Relation Detector:多维度匹配机制

即使RPN生成了高质量候选框,检测器仍需判断这些候选框是否真正属于支持类别。为此,作者设计了 Multi-Relation Detector,如图所示:

该检测器包含三个并行的“关系头”(Relation Heads),分别从不同粒度建模查询候选框与支持图像之间的相似性:

关系头作用特点
Global Relation Head全局特征匹配使用全局平均池化后的特征进行匹配,适合整体外观相似的目标
Local Relation Head像素级匹配计算支持图像与候选区域之间的逐像素相关性,对局部细节敏感
Patch Relation Head块状匹配将图像划分为多个patch,建模“一对多”匹配关系,适合纹理复杂的目标
消融实验结果

实验表明,Local Relation Head 单独表现最好,但三者联合使用能获得最佳性能,说明不同关系头具有互补性


3.4 对比式训练策略:2-Way Contrastive Training

传统训练方式仅匹配“同类”样本对(如 \left ( q_c, s_c \right )),但忽略了“异类”样本的区分能力。为此,作者提出 2-Way Contrastive Training 策略。

训练三元组构建

随机选择:

  • 一个查询图像 q_c​(含类别 c 的目标)
  • 一个正支持图像 s_c​(同类别)
  • 一个负支持图像 s_n​(不同类别,n≠c)

构成三元组 \left ( q_c, s_c, s_n \right )

匹配对设计
  • 正匹配对:前景候选框 + 正支持图像 \left ( p_f, s_p \right )
  • 负匹配对:背景候选框 + 正支持图像  \left ( p_b, s_p \right )
  • 负匹配对:任意候选框 + 负支持图像  \left ( p, s_n \right )

训练时,按 1:2:1 的比例采样这三类匹配对,计算二元交叉熵损失。

实验效果

 

结果表明,①. 2-way 1-shot对比训练与传统的1-way 1-shot训练相比,使AP50提升了 7.9%,验证了对比式训练策略的有效性。②. 不同的训练策略中,2-way 5-shot对比训练获得最佳性能。③. 5-way并没有比2-way训练策略产生更好的性能,表明在训练模型以区分不同类别时,仅一个负支持类别就可以。


四、FSOD数据集:首个大规模小样本检测基准

为推动小样本目标检测研究,作者构建了 FSOD(Few-Shot Object Detection)数据集。

4.1 数据集构建流程

  1. 数据来源:整合 MS COCO、ImageNet、Open Images 等数据集;
  2. 标签统一:合并语义相同的类别(如“polar bear”与“ice bear”);
  3. 质量筛选:去除标注错误、边界框过小(<0.05%图像面积)的样本;
  4. 划分策略:训练集800类,测试集200类,类别完全不重叠,确保评估模型泛化能力。

FSOD标签树如上图所示。ImageNet类别(红圈)与Open Images类别(绿圈)融合,形成统一的层级结构。

文中将来自不同数据集的类别进行语义对齐,从而构建一个统一的、无歧义的标签体系,为跨数据集融合奠定基础。

4.2 数据集统计

FSOD数据集共1000类,66,502张图像,182,591个标注框。

4.3 数据集特点

  • 高多样性:涵盖83个父类(如哺乳动物、服装、武器等);
  • 挑战性强:测试集中26.5%的图像包含≥3个目标;
  • 类别不重叠:训练与测试类别完全分离,真正考验泛化能力。

FSOD数据集中大多数类别样本数在22~108之间,符合小样本设定。


五、实验结果:SOTA性能

5.1 定性结果展示

可以直观看到模型的强大泛化能力:仅凭一个支持样本,模型就能在复杂场景中准确检测出多个同类目标,且几乎没有误检。

5.2 与SOTA方法对比

本文方法无需进一步的训练和微调,即可获得SOTA性能。

5.3 与SOTA方法对比(ImageNet Detection数据集)

本文方法提升超过30个百分点,达到新的SOTA水平。

5.4 与SOTA方法对比(MS COCO数据集)

 

在MS COCO数据集上的性能对比显示,本方法在未针对COCO微调的情况下,仍取得优异表现。

Tips:本文方法不仅在自建FSOD数据集上表现优异,还能无缝迁移到其他主流检测数据集,展现出强大的跨域泛化能力。

5.5 消融实验总结

  • Attention-RPN 提升AP50约2.0%;
  • Multi-Relation Detector 提升AP50约5.0%;
  • 对比训练策略提升AP50约7.9%;
  • 三者结合实现端到端无需微调的小样本检测。

六、总结与启示

核心贡献

  1. 提出 Attention-RPN,首次将支持信息引入RPN,提升候选框质量;
  2. 设计 Multi-Relation Detector,通过多粒度匹配增强判别能力;
  3. 引入 对比训练策略,使模型学会区分“同类”与“异类”;
  4. 构建 FSOD数据集,为小样本检测提供新基准。

意义与影响

  • 本文是首个无需微调的小样本目标检测框架;
  • 开启了“匹配式检测”新范式,后续许多工作(如FSCE、Dense Teacher)均受其启发;
  • 所提数据集成为小样本检测领域的重要基准。

主要参考文献

[1] Snell et al., Prototypical Networks for Few-shot Learning, NeurIPS 2017
[9] Ren et al., LSTD: A Low-Shot Transfer Detector, CVPR 2018
[13] Lin et al., Microsoft COCO: Common Objects in Context, ECCV 2014
[25] Ren et al., Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, NeurIPS 2015
[37] Vinyals et al., Matching Networks for One Shot Learning, NeurIPS 2016
[61] Rosenberg et al., Incremental Few-Shot Object Detection, CVPR 2019

http://www.dtcms.com/a/420220.html

相关文章:

  • 山东建设和城乡建设厅注册中心网站驾校视频网站模板
  • 莱芜住房和城乡建设厅网站专业网站建设哪家好
  • 时间轴网站模板仁怀哪儿做网站
  • 装修公司网站asp源码郴州做网站seo
  • 会网站开发想找兼职免费ppt模板下载简约
  • 网站运营与推广电子商务网站建设策略
  • 沈阳网站建设德泰诺谁有qq网站开发资源群
  • 北京公司网站建设定广州英铭网站建设
  • 网站建设详细步骤建建建设网站公司电话
  • 公司网站搭建费用wordpress积分 充值
  • 手机网站布局教程几分钟弄清楚php做网站
  • 网站建设与维护的试卷网站建设里面包含什么语言
  • 【实验报告】华东理工大学随机信号处理实验报告
  • 个人做网站 需要学什么只是陕西网站建设
  • 数据结构入门 (四):双向通行的“高速公路” —— 深入双向循环链表
  • 西安做网站公司玖佰网络如何在google上免费推广
  • 个人域名备案完成了 可以改网站内容吗wordpress个人展示网站6
  • MySQL中SELECT 语句如何 INTO OUTFILE 保存数据到文件
  • 防火墙技术、模型、发展趋势、局限性及安全体系相关分析
  • 上海网站建设公司推荐排名网站建设中英语
  • 电脑从做系统怎么找回以前登录的网站wordpress网站合并
  • 做网站排名多少钱有没有专门做儿童房的网站
  • 菁染料CY5-二硬脂酰基磷脂酰乙醇胺,CY5标记的二硬脂酰基磷脂酰乙醇胺三个核心组成部分
  • 酵母表面展示技术:真核蛋白工程的 “全能工具”,如何重塑生物医学研究?
  • 泸州市住房和城乡建设厅官方网站WordPress破解怎样主题修复
  • redis常见数据结构及其编码方式
  • 双八网站建设深圳定做网站
  • 来个网站奖励自己单页网站怎么制作教程
  • 网站建设费用做网站和app哪个简单
  • 什么网站可以做直播wordpress 多个域名