当前位置: 首页 > news >正文

BigDetection:改进目标检测器预训练的大规模基准之论文阅读

摘要

近年来,多个数据集和开放挑战已被引入用于目标检测研究。为了构建更通用且强大 的目标检测系统,本文提出了一个新的大规模基准数据集,称为 BigDetection。我们的目标是 整合现有数据集(LVIS、OpenImages 和 Object365)的训练数据,并遵循精心设计的原则,构建一个更大规模的数据集,以 提升检测器的预训练效果。具体而言,我们重新定义了一个新的类别体系,统一了来自不同数据源的异构标签空间。BigDetection 数据集包含 600 个物体类别,超过 340 万张训练图像,标注有 3600 万个边界框,在多个维度上都远超现有的目标检测基准数据集,既提供了 机遇,也带来了 挑战。大量实验表明,BigDetection 作为目标检测方法的评测基准具有较高的有效性,同时作为预训练数据集也展现出了显著的提升效果。代码与模型开源地址:https://github.com/amazonresearch/bigdetection。

1. 引言

回顾 2014 年,Microsoft COCO 数据集 [33] 曾是极具挑战性的目标检测基准,当时的最佳检测方法在80类物体上的 平均精度(AP) 甚至 低于20。如今,最先进的检测器 [10, 62] 已能在 COCO test-dev 上达到 60+ AP。作为目标检测的黄金标准,COCO 数据集催生了众多流行的目标检测算法。

为了构建 更鲁棒、更通用的目标检测系统,近年来发布了多个 大规模目标检测数据集,例如 OpenImages [26]、Objects365 [44] 和 LVIS [24]。然而,每个数据集 都有其局限性和挑战:
在这里插入图片描述

OpenImages 约 10% 的边界框标注由机器生成,可能导致标签错误或边界框重叠(图 1 顶部)。
LVIS 旨在覆盖 1200+ 类密集标注类别,但存在 无效标注、严重的长尾分布 等问题(图 1 底部)。
Objects365 词汇量相对较小,可能遗漏某些常见类别(如昆虫)。

BigDetection 数据集
为解决上述问题,我们提出了一个 新的大规模目标检测基准数据集,称为 BigDetection。
我们的目标是整合现有数据集(LVIS、OpenImages 和 Objects365),遵循精心设计的标注原则,构建一个更适合 目标检测器预训练 的大规模数据集。

与现有的 多数据集训练 方法 [59, 67, 70] 不同,我们使用语言模型构建初始的统一标签空间,并手动验证 以 获得最终的类别体系。
BigDetection 数据集 具有 600 个物体类别,包含 340 万张训练图像,3600 万个边界框。表 1 对比了 BigDetection 与其他数据集的统计信息。
在这里插入图片描述

此外,我们进行了 多种实验,以验证 BigDetection 作为新基准的有效性,以及其作为预训练数据集的提升效果。

特别地,如表 3 所示,使用 Swin-Base 作为主干网络的 CBNetV2 [31],在 BigDetection 预训练后,在 COCO test-dev 上达到 59.8 AP。令人惊讶的是,这一性能甚至可以媲美未在 BigDetection 预训练的 Swin-Large(Swin-Large 的计算量是 Swin-Base 的 2 倍)。此外,在 COCO 部分标注数据设置 [48] 下,BigDetection 预训练展现了极高的数据效率,例如,在仅使用 1% 的 COCO 训练数据 时,即可在 COCO 验证集 上达到 25.3 AP。
在这里插入图片描述

主要贡献
我们的贡献可总结如下:

提出了一个新的目标检测数据集 BigDetection,其规模在多个维度上远超现有基准,可作为更具挑战性的 目标检测评测基准。
验证了 BigDetection 作为预训练数据集的有效性,在 COCO 验证集和 test-dev 集 上取得了 最先进的检测结果,同时在 数据效率设定下 也表现出色。
进行了广泛的消融实验,提供了在大规模数据集上训练目标检测器的最佳实践。

相关工作

数据集在目标检测中的作用
大规模、高质量标注的数据集对于推动更优秀的计算机视觉模型至关重要。在目标检测领域,PASCAL VOC [16] 是早期的基准数据集之一,包含 20 个类别、约 1.7 万张图像。尽管与当今的数据集相比规模较小,PASCAL VOC 却培养了许多经典的目标检测器 [18, 60] 和基于深度学习的检测器 [22, 23, 25]。随后,微软在 2014 年推出了 Microsoft COCO [33],至今已成为最广泛使用的目标检测基准。COCO 包含 11.8 万张图像、86 万个实例标注,覆盖 80 个类别。得益于其大规模和高标注质量,COCO 与深度学习一起彻底改变了计算机视觉的格局。最近,随着大量高质量标注工作的推进,更大规模的数据集如 LVIS [24]、OpenImages [26] 和 Objects365 [44] 相继问世,拥有数百万级的实例标注。它们不仅使我们能够学习更多样化、细粒度的物体概念,还为新场景上的少样本/零样本学习提供了可能。此外,还有许多针对特定领域的目标检测数据集(如 [9, 20, 40, 45, 49, 54]),以支持各种实际应用。

多数据集检测器训练
由于完全依赖人工标注的方式无法扩展到超大规模数据集,近期有研究开始探索多数据集联合训练策略,目标是在现有数据集上利用更多标注数据来学习更好的特征表示。
早期的一项工作 [59] 提出在多个数据集上训

相关文章:

  • 边缘计算的认识和应用
  • 键盘 AK35I Pro V2 分析
  • ABP vNext + Azure Application Insights:APM 监控与性能诊断最佳实践
  • React Native WebView键盘难题:如何让输入框不被键盘遮挡?
  • Antv AVA入门教程
  • CNS无线电信号覆盖分析系统v0.1
  • 【OpenGL ES】不用GLSurfaceView,如何渲染图像
  • 高性能群集部署技术-LVS+Keepalived高可用群集
  • vue3+elementPlus实现无缝滚动表格封装
  • springboot 接口参数接收,body和param什么区别,分别怎么使用
  • SpringCloud+Vue汽车、单车充电桩源码实现:从架构设计到核心模块解析
  • Prufer序列 学习笔记
  • SNMPv3 的安全命名空间详解
  • 需要做一款小程序,用来发券,后端如何进行设计能够保证足够安全?
  • MySQL 多表查询、事务
  • 交叉熵损失函数的优势
  • Java常见异常详解及解决方案(九)
  • 【Git】关于项目开发分支的使用规范
  • 分库分表之优缺点分析
  • 结合 STM32CubeMX 使用 FreeRTOS 实时操作系统
  • 梅州市做试块网站/站内seo优化
  • 怎么做盗版网站赚钱/简述网站建设流程
  • 现在网站建设还用测浏览器吗/营销广告语
  • 怎么做跳转网站首页/seo外包公司需要什么
  • 广东网站设计品牌设计/网站整站优化公司
  • 怎么做中英文版网站/网站推广的方式有哪些?