YOLO-V3
今天所学聚焦 YOLO-V3 的技术升级,重点阐述其在网络架构、多尺度检测、先验框设计及分类方式上的改进,核心目标是提升小目标检测能力与多标签预测适应性,同时保持良好的检测性能。
一、YOLO-V3 核心改进方向
- 多尺度检测设计
- 为适配不同大小物体检测,设置 3 个特征图尺度(13×13、26×26、52×52),每个尺度对应不同感受野:13×13 感受野大,负责检测大物体;52×52 感受野小,专注小物体检测。
- 不同于传统 “图像金字塔” 或 “单一特征图利用”,采用多特征图融合后预测的方式,让不同尺度特征互补,提升检测精度。
- 网络架构优化
- 引入残差连接:借鉴 ResNet 思想,通过堆叠更多网络层(如 56-layer、20-layer 结构)提取更细致特征,同时避免深层网络梯度消失问题,当前主流网络普遍采用该设计。
- 无池化与全连接层:全程使用卷积操作,下采样通过设置stride=2实现,减少参数冗余,提升计算效率,且融合当下经典网络设计思路。
- 先验框扩展
- 数量从 YOLO-V2 的 5 种增至 9 种,按特征图尺度分配:
- 13×13 特征图:(116x90)、(156x198)、(373x326),适配大物体;
- 26×26 特征图:(30x61)、(62x45)、(59x119),适配中物体;
- 52×52 特征图:(10x13)、(16x30)、(33x23),适配小物体。
- 更丰富的先验框使边界框匹配更精准,进一步提升检测召回率。
- 分类方式升级
- 舍弃 Softmax 层,改用 Logistic 激活函数:针对物体检测中 “一个物体可能有多个标签” 的场景,Logistic 函数可独立预测每个类别的 “是 / 否”,更适配多标签任务,避免 Softmax 对单类别概率归一化的限制。
二、YOLO-V3 性能表现
在 COCO 数据集上,不同输入尺寸的模型性能如下:
YOLOv3-320:mAP-50 为 51.5,推理时间 22ms;
YOLOv3-416:mAP-50 为 55.3,推理时间 29ms;
YOLOv3-608:mAP-50 为 57.9,推理时间 51ms。
对比同期模型(如 SSD、RetinaNet 等),YOLO-V3 在 “精度 - 速度” 平衡上表现优异,尤其在小目标检测和多标签预测场景中优势明显。