当前位置: 首页 > news >正文

SimD小目标样本分配方法

摘要

——由于目标尺寸有限且信息匮乏,微小目标检测正成为计算机视觉中最具挑战性的任务之一。标签分配策略是影响目标检测精度的关键因素。尽管已有一些针对微小目标的有效标签分配策略,但它们大多侧重于降低对边界框的敏感性以增加正样本数量,并且需要设置一些固定的超参数。然而,更多的正样本并不一定带来更好的检测结果,实际上,过多的正样本可能导致更多的误报。在本文中,我们提出了一种简单但有效的策略,称为相似度距离(Similarity Distance,SimD),用于评估边界框之间的相似性。该策略不仅同时考虑位置和形状的相似性,还能自适应地学习超参数,保证其能适应不同的数据集以及同一数据集中不同的目标尺寸。我们的方法可以简单地应用于常见的基于锚框的检测器,用以替代 IoU 进行标签分配和非极大值抑制(NMS)。在四个主流的微小目标检测数据集上进行的大量实验表明,我们的方法具有优越性能;尤其在 AI-TOD 数据集上,对 very tiny 类别,较最先进方法分别提升了 1.8 个 AP 点和 4.1 个 AP 点。代码已开源于: https://github.com/cszzshi/SimD。

I. 引言

随着无人机技术和自动驾驶的普及,目标检测的应用在日常生活中越来越广泛。通用目标检测器在准确性和检测速度上都取得了显著进步。例如,最新版本的 YOLO 系列(YOLOv8)在 COCO 检测数据集上达到了 53.9% 的平均精度(mAP),并在 NVIDIA A100 GPU 上使用 TensorRT 时仅需 3.53 ms 即可完成一张图像的检测。然而,尽管通用目标检测器在整体上取得了很大进展,当它们直接用于微小目标检测任务时,精度会急剧下降。

在对小目标检测的最新综述中,Cheng 等人 [1] 根据目标的平均面积将小目标分为三类(极小、相对小、一般小)。微小目标检测面临的两大主要挑战是信息损失和正样本不足。为了提高微小目标检测的精度,可以采取许多方法,例如特征融合、数据增强和超分辨率等。

由于充足且高质量的正样本对于目标检测至关重要,标签分配策略是影响最终结果的核心因素。目标边界框越小,IoU 指标的敏感性越高,这也是为什么微小目标难以像一般目标那样被标记为大量正样本的主要原因。图 1 中简单比较了传统基于锚框与无锚方法与我们 SimD 指标的差别。

当前关于微小目标标签分配策略的研究主要集中在降低对边界框尺寸的敏感性。从这一角度出发,Xu 等人 [2] 提出用点距离(Dot Distance,DotD)替代 IoU 作为分配度量。随后,NWD [3] 和 RFLA [4] 尝试将真值框与锚框建模为高斯分布,然后用两高斯分布之间的距离来评估边界框间的相似性。事实上,这些方法在标签分配上取得了可观进展,但也存在一些问题。

首先,这些方法大多聚焦于降低对边界框尺寸的敏感性,从而增加正样本数量。但正如我们所知,过多的正样本可能会对目标检测器产生不利影响,导致大量误报。
其次,这些度量的本质是衡量边界框之间的相似性。对于基于锚框的方法,考虑的是真值框与锚框之间的相似性,这种相似性包含两个方面:形状和位置。然而,有些方法只考虑边界框的位置,另一些方法虽然同时考虑形状与位置,但又含有需要手动选择的超参数。
最后,尽管微小目标检测数据集中目标尺寸趋于相对相似,但数据集中不同目标尺度之间仍存在差异。例如,AI-TOD 数据集中的目标尺寸范围为 2 到 64 像素。VisDrone2019 数据集中尺度差异更为显著,既包含微小目标也包含一般尺度目标。事实上,目标越小,获得正样本越困难。不幸的是,大多数现有方法可能对这一问题关注不足。

为了解决这些问题,本文提出了替代传统 IoU 的新评估度量,方法的处理流程如图 2 所示。本文的主要贡献包括:
• 我们提出了一种简单但有效的策略——相似度距离(SimD),用于评估两个边界框之间的关系。该策略不仅同时考虑位置与形状相似性,而且能够无须手动设置超参数地自适应不同数据集和同一数据集中不同的目标尺寸。
• 大量实验验证了我们方法的有效性。我们在若干通用目标检测器上,仅将基于 IoU 的分配模块替换为基于 SimD 的模块,即可在四个主流微小目标检测数据集上取得最先进的性能。

II. 相关工作

近年来,目标检测技术在各行各业的应用越来越广泛。这项技术带来了相当大的便利。例如,通过识别遥感图像中的地面目标,可以快速开展救援行动。随着深度学习技术的发展,尤其是 ResNet [5] 的引入,检测的准确率和速度都有了显著提升。

通用目标检测器大致可分为两类:两阶段检测器和单阶段检测器。

两阶段检测器首先生成一组候选区域(proposal),然后确定目标的位置和类别。这类算法包括 R-CNN [6]、Fast R-CNN [7] 和 Fas

http://www.dtcms.com/a/329121.html

相关文章:

  • 什么是HTTP的无状态(举例详解)
  • JavaScript 中 let、var、const 的区别详解
  • 如何用外部电脑访问本地网页?
  • Leetcode题解:215,数组中的第k个最大元素,如何使用快速算法解决!
  • 6 ABP 框架中的事件总线与分布式事件
  • 豆包 + 蘑兔 AI:圆你创作歌曲梦​
  • JavaWeb-Servlet基础
  • 4.0 vue3简介
  • 【深入浅出STM32(1)】 GPIO 深度解析:引脚特性、工作模式、速度选型及上下拉电阻详解
  • 【Docker项目实战】使用Docker部署todo任务管理器
  • [AI React Web]`意图识别`引擎 | `上下文选择算法` | `url内容抓取` | 截图捕获
  • Android 双屏异显技术全解析:从原理到实战的多屏交互方案
  • 开发手记:一个支持自动翻译的H5客服系统
  • TeamViewer 以数字化之力,赋能零售企业效率与客户体验双提升
  • 在线 A2C实践
  • 玩转Docker | 使用Docker部署MediaWiki文档管理平台
  • 大文件上传解决方案
  • React useMemo 深度指南:原理、误区、实战与 2025 最佳实践
  • 【SpringBoot系列-01】Spring Boot 启动原理深度解析
  • C->C++核心过渡语法精讲与实战
  • 深度学习——03 神经网络(2)-损失函数
  • Spring Boot 使用 @NotBlank + @Validated 优雅校验参数
  • react+antd+vite自动引入组件、图标等
  • 适配安卓15(对应的sdk是35)
  • 单片机启动流程详细介绍
  • 开源WAF新标杆:雷池SafeLine用语义分析重构网站安全边界
  • vscode远程服务器出现一直卡在正在打开远程和连接超时解决办法
  • SpringBoot 整合 Langchain4j 系统提示词与用户提示词实战详解
  • IV模型(工具变量模型)
  • 《论文阅读》从特质到移情:人格意识多模态移情反应生成 ACL 2025