当前位置：首页 > news >正文

深度学习------YOLOV1和YOLOV2

news 2025/10/19 7:58:11

一、YOLOv1：用 "网格回归" 重新定义实时检测

1. 核心逻辑：让每个网格 "各司其职"

2. 损失函数：给不同误差 "分权重"

3. 优点与遗憾：速度快但精度有短板

二、YOLOv2：从 "能用" 到 "好用" 的十大改进

1. 锚框 + K-Means：让框预测更精准

2. Batch Normalization：训练稳了，精度高了

3. 细粒度特征 + 多尺度训练：拯救小目标检测

4. Darknet-19：更快的特征提取 backbone

三、新手通关清单：从 v1 到 v2 的核心启示

YOLO 进化史入门：从 v1 到 v2 的核心改进，新手也能看懂的实战拆解

今天总算把 YOLO 系列的 "开山之作" 和 "进阶版" 捋明白了 —— 从 v1 打破传统检测范式，到 v2 针对性补短板，每一步改进都藏着深度学习落地的思考。结合自己整理的笔记和实操感悟，把这两个版本的核心逻辑拆解开，新手入门应该能少绕些弯路。

一、YOLOv1：用 "网格回归" 重新定义实时检测

在 YOLOv1 出现前，目标检测大多是 "先找候选框再分类" 的两阶段模式，速度慢得让人着急。而 v1 最颠覆的地方，是把检测变成了端到端的网格回归任务，一张图过一次网络就出结果，这才有了 "实时检测" 的突破。

v1 的思路特别直观：把输入图像缩成 448×448，再均匀切成 7×7=49 个网格。如果某个目标的中心落在哪个网格里，这个网格就 "负责" 预测它的位置和类别。

每个网格要输出两组关键信息：

2 个边界框：每个框包含 (x,y,w,h,c) 5 个参数 ——x、y 是框中心相对于网格左上角的偏移量（0~1 之间，确保中心在网格内），w、h 是框宽高相对于整幅图的比例，c 是置信度（既表示有目标的概率，也反映框和真实目标的重合度）。
20 个类别概率：对应 VOC 数据集的 20 类物体，只有网格内有目标时这组概率才有意义。

最终输出的是 7×7×30 的张量（30=2 个框 ×5 个参数 + 20 类概率），这个维度设计就是 v1 实现 "单步检测" 的核心载体。我刚开始算这个维度时愣了一下，后来画了张网格图才想通：每个网格的 30 个数值都有明确分工，难怪能一次出结果。

v1 用均方误差做损失，但没简单一刀切，而是通过权重平衡了三类误差：

定位误差权重设为 5：毕竟检测的核心是 "找对位置"，小目标的位置偏差影响更大，所以对 w 和 h 做了平方根处理 —— 比如大框宽差 10 像素影响不大，小框差 10 像素就全错了，平方根能放大这种差异。
无目标的置信度误差权重设为 0.5：避免背景网格的大量误差掩盖了有目标区域的学习信号。
类别误差权重设为 1：保证分类精度不被其他误差压制。

这种设计让模型知道 "该优先学好什么"，但用均方误差做分类还是有局限，这也是 v2 要优化的点之一。

v1 的优势很突出：标准版本能跑 45 FPS，精简版甚至到 155 FPS，完全满足实时需求；而且全局看图的方式减少了背景误检，泛化能力比同期算法强。

但实操中问题也明显：每个网格最多只预测 2 个框，遇到鸟群这类密集小目标就会漏检；定位精度不够，尤其是大目标的边界框容易偏；对不常见长宽比的目标适配性差。这些遗憾刚好成了 v2 的改进方向。

v2 的论文标题直接点明目标 ——"Better, Faster, Stronger"，它没有推翻 v1 的框架，而是针对性补短板，把精度和速度的平衡做得更极致。我挑几个最关键的改进点拆解，都是新手必须吃透的核心。

v1 的框是直接回归出来的，对不同形状目标适配差。v2 借鉴了 Faster R-CNN 的锚框思路，但没手动设尺寸，而是用K-Means 聚类从训练数据的真实框里自动学。

具体来说：

用 "1-IoU" 做距离 metric，避免大框小框的聚类偏差；
在 VOC 数据集聚出 5 种长宽比，COCO 数据集聚出 9 种，刚好覆盖常见目标形状；
每个网格预测 9 个锚框，输出张量变成 13×13×(9×25)（25=5 个框参数 + 20 类概率），预测框数量从 98 个暴涨到 1521 个，召回率直接从 81% 提到 88%。

我试算过这个提升：同样一张有 3 只猫的图，v1 可能漏检 1 只，v2 因为锚框多，总能有几个框刚好框住目标，这个改进真的直击痛点。