YOLOV4
一、整体定位与核心优势
- 传承与创新:尽管作者更换,但延续了 YOLO 系列的核心精髓,保持了对检测精度和速度的平衡追求,细节设计依旧精细。
- 亲民特性:支持单 GPU 训练,大幅降低设备门槛,所有实验均基于单 GPU 完成,无需高端硬件配置。
- 核心贡献:从数据层面和网络设计层面双管齐下优化模型;开展了全面的消融实验,覆盖主流改进方向,工作量极为丰富。
- 性能表现:在速度 - 精度权衡上表现优异,与 YOLOv3、EfficientDet、ATSS 等主流模型相比,在相近 FPS(帧率)下具备更高精度,完全满足实时检测需求。
二、核心优化框架:Bag of Freebies(BOF)
核心特点是仅增加训练成本,不影响推理速度,显著提升检测精度,涵盖数据增强、网络正则化、损失函数优化三大方向:
1. 数据增强技术
- Mosaic 数据增强:参考 CutMix 思路,将 4 张图像拼接为 1 张进行训练,丰富数据多样性。
- 其他增强手段:Random Erase(随机值 / 平均像素值替换图像区域)、Hide and Seek(随机隐藏图像补丁)、Self-adversarial-training(SAT,引入噪音提升训练难度),以及传统的亮度、对比度、色调调整、随机缩放、剪切、翻转、旋转等。
- 效果验证:对比 Mixup、Cutout、CutMix 等方法,Mosaic 等增强手段在 ImageNet 分类、定位及 Pascal VOC 检测任务中均实现精度提升(如 Pascal VOC 检测 mAP 最高提升 2.3%)。
2. 网络正则化方法
- DropBlock:改进传统 Dropout 随机删除单个像素的方式,改为删除连续的图像区域,避免信息碎片化,正则化效果更优。
- Label Smoothing:缓解神经网络过拟合问题,通过软化标签(如将标签 [0,1] 调整为 [0.05, 0.95])降低模型置信度偏差,使类别簇内更紧密、簇间更分离。
3. 损失函数与框筛选优化
- IOU 损失的演进:针对传统 IOU 损失 “无相交时梯度为 0”“相同 IOU 无法区分实际位置差异” 的缺陷,依次提出改进方案:
- GIoU:引入能包裹预测框与真实框的最小封闭形状 C,解决无相交时梯度消失问题;
- DIoU:优化中心点欧式距离,直接优化框的位置距离,收敛速度更快;
- CIoU:同时考虑重叠面积、中心点距离、长宽比三个几何因素,进一步提升定位精度。
- 框筛选改进:用 DIOU-NMS 替代传统 NMS,筛选时同时考虑 IOU 值和框中心点距离;补充 Soft-NMS,通过调整置信度而非直接剔除框,实现更柔和的框筛选逻辑。