YOLO-V1 与 YOLO-V2
一、YOLO-V1 核心内容
YOLO-V1 是经典的 one-stage 目标检测方法,核心是将检测问题转化为回归问题,仅用一个 CNN 网络即可完成检测,能实现视频实时检测,应用广泛。
1. 核心思想与网络架构
- 核心思想:将输入图像划分为 S×S 网格,每个网格预测多个边界框(Bounding boxes)及对应置信度,同时生成类别概率图,最终结合这些信息得到检测结果。
- 网络架构:基于 GoogLeNet 修改,共 20 层。输入图像尺寸为 448×448×3,经多次卷积(C.R)、全连接(FC)操作后,最终输出 7×7×30 的张量。
2. 关键参数含义
- 7×7:表示最终输出的网格大小,即把输入图像分成 7×7 个网格单元。
- 2:每个网格单元预测的边界框数量。
- 20:当前数据集中目标类别的数量,如常见的 20 类物体。
- 30:由每个边界框的 5 个参数(x,y,w,h,c)乘以 2 个边界框,再加上 20 个类别概率,即(2×5 + 20)= 30,对应输出张量的通道数。
3. 损失函数与 NMS
- 损失函数:综合考虑位置误差、置信度误差和分类误差。位置误差针对边界框的坐标(x,y,w,h)计算;置信度误差分含物体和不含物体两种情况;分类误差则基于类别概率计算。
- NMS(非极大值抑制):用于过滤冗余的检测框,保留置信度高且重叠度低的检测结果,提升检测精度。
4. 优缺点
- 优点:检测速度快,能满足实时检测需求;网络结构简单,易于实现和部署。
- 缺点:每个网格单元仅预测一个类别,当多个目标重叠在同一网格单元时,无法准确检测;对小物体的检测效果较差,且边界框长宽比选择单一,适应性有限。
二、YOLO-V2 核心内容
YOLO-V2 在 V1 基础上进行多项改进,实现了 “更快、更强” 的检测效果,VOC2007 数据集上的 mAP 从 63.4 提升至 78.6。
1. 关键改进技术
- Batch Normalization:舍弃 Dropout,在每个卷积层后加入 Batch Normalization。对网络每一层输入进行归一化,使网络收敛更易,提升 2% 的 mAP,现已成为网络常用组件。
- 更大分辨率训练:V1 训练时用 224×224 尺寸,测试时用 448×448,易导致模型适配问题。V2 训练时额外进行 10 次 448×448 尺寸的微调,使用高分辨率分类器后,mAP 提升约 4%。
- 网络结构优化(DarkNet):输入尺寸为 416×416,无全连接层,经 5 次降采样后得到 13×13 的特征图。通过 1×1 卷积减少参数数量,提升计算效率。
- 聚类提取先验框:不同于 Faster-RCNN 使用固定常规比例的先验框,YOLO-V2 通过 K-means 聚类从数据集中提取先验框,距离计算采用 “d (box, centroids) = 1 - IoU (box, centroids)”,使先验框更适配数据集。
- 引入 Anchor Box:使预测的边界框数量增多(13×13×n,n 为 Anchor Box 数量),提升检测召回率,从 81% 提高到 88%,不过 mAP 略有波动(从 69.5 变为 69.2)。
- Directed Location Prediction:不直接使用边界框偏移量,而是预测相对网格单元的偏移量。通过公式 “b_x = σ(tx) + Cx”“b_y = σ(ty) + Cy”“b_w = p_w e^tw”“b_h = p_h e^th” 计算边界框坐标,避免收敛问题,增强模型稳定性。
- Fine-Grained Features:针对最后一层感受野过大导致小目标丢失的问题,融合之前层的细粒度特征,提升小目标检测能力。
- Multi-Scale 训练:训练过程中,每隔一定迭代次数改变输入图像尺寸,尺寸范围为 320×320 到 608×608,增强模型对不同尺寸目标的适应能力。
2. 感受野相关知识
- 定义:特征图上的点所能对应到原始图像的区域大小,反映该点对原始图像信息的感知范围。
- 小卷积核优势:堆叠 3 个 3×3 卷积核(步长 1)的感受野与 1 个 7×7 卷积核相同,但参数更少(3 个 3×3 卷积核参数为 27C²,1 个 7×7 卷积核参数为 49C²),且能进行更多次特征提取和非线性变换,提升特征表达能力,这也是 VGG 网络的核心设计思路之一。
三、两代模型对比
对比维度 | YOLO-V1 | YOLO-V2 |
---|---|---|
核心特点 | one-stage,回归化检测 | 在 V1 基础上优化,更快更强 |
输入尺寸 | 448×448 | 416×416(支持 320×320-608×608 多尺寸) |
网络结构 | 基于 GoogLeNet,含全连接层 | DarkNet,无全连接层 |
先验框 | 无 | 通过 K-means 聚类获取 |
mAP(VOC2007) | 63.4 | 78.6 |
优势 | 速度快、结构简单 | 检测精度高、适应能力强、小目标检测好 |
不足 | 小目标检测差、重叠目标处理弱 | 较 V1 结构复杂 |