【SOD】目标检测
一、SOD任务的含义、特性、分类
小目标的定义
将目标物的bbox表示为(x,y,w,h)(x,y,w,h)(x,y,w,h)
小目标:短边长度不小于4像素,长边不超过32像素。
min(w,h)≥4pixelmax(w,h)≤32pixel
min(w,h) \ge 4 pixel \\ max(w,h) \le 32 pixel
min(w,h)≥4pixelmax(w,h)≤32pixel
学术界还细分为:
- 小目标检测:SOD(Small Object Detection)
- 微小目标检测:TOD(Tiny Object Detection)
但具体的标准没有明确的标准,这里都统称为小目标检测
小目标的特性
- 小目标之间的交叠概率比较低,即使有交叠,其IoU多数情况下也是比较小的
- 小目标自身的纹理显著度有强弱区别,但是总体来说纹理特征都较弱,很多时候需要借助一定的图像上下文来帮助确认
如图左侧的图片,人都很难判断是什么。但是不断添加上下文信息,看到人的身体轮廓,人肉眼就能识别出是人脸。
小目标的分类
分类依据:
- 图像上下文的依赖程度
- 比如微小人脸,他是人身体的一部分,所以有身体就能确定是人脸。
- 而微小人体,背景可以随意换,所以上下文变化很大,依赖程度低。
- 一般目标是a bart of类的,就都是上下文依赖程度强的。
- 自身纹理显著程度
- 比如飞机,轮廓特征就很明显,纹理特征显著。
- 车辆就是一个矩形,很容易和其他物体混淆。
二、基于感受野的理论推出一系列网络设计原则
做任何尺寸目标的检测任务,模型都需要达到一定的感受野。
由于有效感受野不能被精确计算,所以理论感受野必须要大于目标尺度。
要达到某个固定的理论感受野数值,网络结构如何设计。
思考小目标检测backbone的设计
这里只选取两个层,
- 3x3步长为1的卷积
- 3x3步长为2的卷积,用于下采用
基本认识:在不考虑宽度的情况下,网络深度越深,通常来说更有利于特征学习