当前位置：首页 > news >正文

YOLOv4：目标检测界的 “集大成者”

news 2025/10/22 8:55:45

从 YOLOv1 的实时突破，到 v2 的精度追赶，v3 的多尺度检测，YOLO 系列一直在 “快” 和 “准” 之间找最优解。

一、先聊整体：YOLOv4 的 “三个关键标签”

YOLOv4 的三个核心优势：

单 GPU 友好：之前很多 SOTA 模型需要多 GPU 集群训练，YOLOv4 全部实验用单 GPU 完成，普通开发者也能复现，门槛极低；
速度与精度双优：看 PPT 里的性能图就知道 —— 在 V100 显卡上，YOLOv4 的 mAP 远超 YOLOv3，甚至比 EfficientDet（以精度见长）还高，同时保持实时速度（FPS≈45），真正做到 “又快又准”；
细节拉满的 “整合大师”：作者把 2019 年前后的优秀技术（数据增强、损失函数、特征融合）全部做了消融实验，挑出最优组合，相当于 “帮你把近 3 年的检测论文精华过了一遍”。

YOLOv4 的第一个核心是BOF（免费午餐）：这些方法只增加训练时的计算量，训练完后完全不影响推理速度，却能大幅提精度。简单说就是 “训练时多花点时间，推理时一点不耽误”。

数据增强是 BOF 的核心，YOLOv4 用了 4 种关键方法，解决了小目标少、数据多样性不足的问题：

Mosaic（马赛克增强）：把 4 张不同的图拼接成 1 张（像拼马赛克），再标注合并后的目标。解决的问题：单张图里目标更多，尤其是小目标（比如 4 张图里的小昆虫拼在一起，模型能多学小目标特征）；同时场景更复杂，模型泛化能力更强。
Random Erase（随机擦除）：随机选图像的一块区域，用随机值或数据集平均像素值覆盖。作用：模拟物体被遮挡的场景（比如猫被桌子挡住一半），让模型不依赖完整目标也能识别。
Hide and Seek（藏猫猫）：按概率随机隐藏图像里的多个小补丁。作用：比 Random Erase 更细粒度，强迫模型关注目标的关键部位（比如识别狗时，即使藏了耳朵，也能通过身体识别）。
Self-adversarial Training（SAT，自对抗训练）：先让模型对图像加 “对抗噪音”（比如把猫的边缘模糊），再用加噪后的图训练模型 “纠错”。作用：相当于给模型 “出题刁难”，让它在有干扰的情况下也能准确识别，抗噪声能力更强。

模型训练时容易 “死记硬背” 训练数据（过拟合），YOLOv4 用两种方法让模型 “谦虚一点”：

DropBlock（块 dropout）：之前的 Dropout 是随机删单个像素，DropBlock 直接删一整块区域（比如 16×16 的补丁）。为什么更好？目标检测需要 “局部特征关联”（比如识别车需要车轮 + 车身一起看），删单像素影响小，删整块能强迫模型学习更分散的特征，避免依赖某一块区域。
Label Smoothing（标签平滑）：把绝对的标签（比如 “猫 = 1，狗 = 0”）改成柔和的标签（比如 “猫 = 0.95，狗 = 0.05”）。解决的问题：模型不会对预测结果 “过度自信”（比如预测猫的概率是 0.999，其实可能是过拟合），让类别边界更清晰，泛化能力更强。

目标检测的核心是 “框准目标”，而损失函数决定了模型 “怎么学框的位置”。YOLOv4 把损失函数从 IOU 一路升级到 CIoU，每一步都在补前一代的坑：

原始 IOU 损失：用 “预测框与真实框的交集 / 并集” 计算损失，缺点很明显 —— 如果框不重叠，IOU=0，模型无法计算梯度，根本不知道往哪调；
GIoU 损失：引入 “最小封闭框 C”（能把预测框和真实框都包起来的最小矩形），损失 = 1-IOU + (C - 并集面积)/C。改进点：即使框不重叠，也能通过最小封闭框计算损失，模型知道往 “缩小 C” 的方向调；
DIoU 损失：在 GIoU 基础上，加了 “中心点距离”—— 损失 = 1-IOU + (中心点距离 ²)/(C 的对角线 ²)。改进点：GIoU 还会让框绕着真实框转，DIoU 直接优化中心点距离，框调整更快更准；
CIoU 损失：最终版！再加 “长宽比”—— 损失 = 1-IOU + 中心点距离项 + α× 长宽比项（α 是权重）。改进点：同时考虑 “重叠面积、中心点距离、长宽比” 三个几何因素，完全贴合真实框的形状，框的定位精度直接拉满。

NMS（非极大值抑制）是用来 “去重重复框” 的，但传统 NMS 太 “暴力”—— 只要 IOU 超过阈值，就直接删掉框，容易漏检重叠目标。YOLOv4 用了两种更柔和的 NMS：

DIOU-NMS：不只用 IOU 判断，还看 “中心点距离”—— 即使 IOU 高，只要中心点离得远，也不删框。效果：比如两个并排的人，传统 NMS 可能删一个，DIOU-NMS 能都保留，召回率提升；
Soft-NMS：不直接删框，而是降低重叠框的置信度（比如 IOU 越高，置信度降越多）。效果：避免 “误删”，比如被遮挡的小目标，置信度降低但不会被删掉，后续还能被检测到。