目标识别笔记
一、目标检测核心概念
定义:识别图像中物体的类别并定位其位置(边界框)。
多任务:分类 + 定位。
挑战:
目标种类与数量繁多
目标尺度差异大
遮挡、噪声干扰
二、常用数据集
数据集 | 特点 |
---|---|
VOC | 20类,常用于早期研究 |
COCO | 80类,图像多、目标密集,更具挑战性 |
三、标注格式(Ground Truth)
YOLO:归一化中心坐标 + 宽高
(x, y, w, h)
VOC:绝对坐标
(Xmin, Ymin, Xmax, Ymax)
COCO:绝对坐标
(Xmin, Ymin, W, H)
四、评估指标
IoU:衡量预测框与真实框的重合度
Precision & Recall:查准率与查全率
AP:平均精度,常用11点法计算
mAP:所有类别AP的均值,核心评估指标
五、传统方法:滑动窗口
缺点:冗余计算多、定位不准、需人工设计窗口尺寸
六、深度学习方法
1. Anchor-based
使用预设的 anchor boxes 进行目标定位
典型方法:Faster R-CNN, YOLOv2-v4, SSD
2. Anchor-free
不依赖预设 anchor,直接预测目标位置
典型方法:YOLOv1, CenterNet, FCOS
3. Two-stage vs One-stage
Two-stage:先提候选区域,再分类与回归(精度高,速度慢)
如:R-CNN系列
One-stage:端到端直接输出检测结果(速度快,精度稍低)
如:YOLO系列, SSD
七、后处理技术:NMS
用于去除重叠的冗余检测框
步骤:按置信度排序 → 选取最高框 → 抑制高IoU框 → 重复