当前位置: 首页 > news >正文

YOLO-V1 与 YOLO-V2

一、YOLO-V1 核心内容

YOLO-V1 是经典的 one-stage 目标检测方法,核心是将检测问题转化为回归问题,仅用一个 CNN 网络即可完成检测,能实现视频实时检测,应用广泛。

1. 核心思想与网络架构
  • 核心思想:将输入图像划分为 S×S 网格,每个网格预测多个边界框(Bounding boxes)及对应置信度,同时生成类别概率图,最终结合这些信息得到检测结果。
  • 网络架构:基于 GoogLeNet 修改,共 20 层。输入图像尺寸为 448×448×3,经多次卷积(C.R)、全连接(FC)操作后,最终输出 7×7×30 的张量。
2. 关键参数含义
  • 7×7:表示最终输出的网格大小,即把输入图像分成 7×7 个网格单元。
  • 2:每个网格单元预测的边界框数量。
  • 20:当前数据集中目标类别的数量,如常见的 20 类物体。
  • 30:由每个边界框的 5 个参数(x,y,w,h,c)乘以 2 个边界框,再加上 20 个类别概率,即(2×5 + 20)= 30,对应输出张量的通道数。
3. 损失函数与 NMS
  • 损失函数:综合考虑位置误差、置信度误差和分类误差。位置误差针对边界框的坐标(x,y,w,h)计算;置信度误差分含物体和不含物体两种情况;分类误差则基于类别概率计算。
  • NMS(非极大值抑制):用于过滤冗余的检测框,保留置信度高且重叠度低的检测结果,提升检测精度。
4. 优缺点
  • 优点:检测速度快,能满足实时检测需求;网络结构简单,易于实现和部署。
  • 缺点:每个网格单元仅预测一个类别,当多个目标重叠在同一网格单元时,无法准确检测;对小物体的检测效果较差,且边界框长宽比选择单一,适应性有限。

二、YOLO-V2 核心内容

YOLO-V2 在 V1 基础上进行多项改进,实现了 “更快、更强” 的检测效果,VOC2007 数据集上的 mAP 从 63.4 提升至 78.6。

1. 关键改进技术
  • Batch Normalization:舍弃 Dropout,在每个卷积层后加入 Batch Normalization。对网络每一层输入进行归一化,使网络收敛更易,提升 2% 的 mAP,现已成为网络常用组件。
  • 更大分辨率训练:V1 训练时用 224×224 尺寸,测试时用 448×448,易导致模型适配问题。V2 训练时额外进行 10 次 448×448 尺寸的微调,使用高分辨率分类器后,mAP 提升约 4%。
  • 网络结构优化(DarkNet):输入尺寸为 416×416,无全连接层,经 5 次降采样后得到 13×13 的特征图。通过 1×1 卷积减少参数数量,提升计算效率。
  • 聚类提取先验框:不同于 Faster-RCNN 使用固定常规比例的先验框,YOLO-V2 通过 K-means 聚类从数据集中提取先验框,距离计算采用 “d (box, centroids) = 1 - IoU (box, centroids)”,使先验框更适配数据集。
  • 引入 Anchor Box:使预测的边界框数量增多(13×13×n,n 为 Anchor Box 数量),提升检测召回率,从 81% 提高到 88%,不过 mAP 略有波动(从 69.5 变为 69.2)。
  • Directed Location Prediction:不直接使用边界框偏移量,而是预测相对网格单元的偏移量。通过公式 “b_x = σ(tx) + Cx”“b_y = σ(ty) + Cy”“b_w = p_w e^tw”“b_h = p_h e^th” 计算边界框坐标,避免收敛问题,增强模型稳定性。
  • Fine-Grained Features:针对最后一层感受野过大导致小目标丢失的问题,融合之前层的细粒度特征,提升小目标检测能力。
  • Multi-Scale 训练:训练过程中,每隔一定迭代次数改变输入图像尺寸,尺寸范围为 320×320 到 608×608,增强模型对不同尺寸目标的适应能力。
2. 感受野相关知识
  • 定义:特征图上的点所能对应到原始图像的区域大小,反映该点对原始图像信息的感知范围。
  • 小卷积核优势:堆叠 3 个 3×3 卷积核(步长 1)的感受野与 1 个 7×7 卷积核相同,但参数更少(3 个 3×3 卷积核参数为 27C²,1 个 7×7 卷积核参数为 49C²),且能进行更多次特征提取和非线性变换,提升特征表达能力,这也是 VGG 网络的核心设计思路之一。

三、两代模型对比

对比维度YOLO-V1YOLO-V2
核心特点one-stage,回归化检测在 V1 基础上优化,更快更强
输入尺寸448×448416×416(支持 320×320-608×608 多尺寸)
网络结构基于 GoogLeNet,含全连接层DarkNet,无全连接层
先验框通过 K-means 聚类获取
mAP(VOC2007)63.478.6
优势速度快、结构简单检测精度高、适应能力强、小目标检测好
不足小目标检测差、重叠目标处理弱较 V1 结构复杂
http://www.dtcms.com/a/491445.html

相关文章:

  • 中科大少年班记(2025年10月)
  • 微信公众号端网站开发小程序开发费用一览表fhq华网天下
  • 体育数据库:搭建体育应用的核心「数据引擎」
  • 【JETSON+FPGA+GMSL】多功能图像采集卡,以高集成、多通道方案应对工业视觉挑战
  • 做网站教学书微信公众号下载安装
  • 【从零开始构建性能测试体系-07】理解响应时间、吞吐量与并发:性能测试关键指标解读
  • C/C++字符串
  • 上网站乱码python网站开发效率
  • 告别“搬砖”:在AI的辅助下,前端如何触及业务与架构的深水区?
  • 大显存 AI 训练实战:PyTorch/TensorFlow 参数调试与多场景落地指南
  • 石狮新站seo电子商务网站建设与管理感想
  • Socket 抓包工具与实战,从抓取到定位(Socket 的命令、分析)
  • 让安全驾驶有“AI”相伴|腾视科技DMS视频监控一体机,守护每一次出行
  • 软考高项论文考试攻略1:从趋势分析到实战技巧
  • C语言:自定义类型
  • MATLAB中双馈发电机与无刷双馈发电机低电压穿越的异同分析
  • 做公司网站需要多南京建设行政主管部门网站
  • 【CDA案例】某女装品牌如何用AARRR 模型落地实践使私域增长突围的?5分钟get到​重点
  • 企业电话交换机配置在线聊天功能安装文档
  • 公司做网站需要什么条件程序员培训机构出来找工作好找吗
  • Python3编程之Python基础(更新中...)
  • 从概念到实战:一文读懂实时操作系统(RTOS),并洞悉其与Linux/Windows的本质区别
  • 网站建设谈单思路互联网保险的特点不包括
  • 从边缘到云端:Takebishi如何比Kepware更快打通IIoT数据链路
  • uniapp :class不支持 getAvatarClass(currentContact.type) 语法 导致的问题
  • List导出到Excel文件
  • PLD-150电液伺服钢管弯曲疲劳试验台
  • 个人可以做社区网站有哪些深圳市网站开发
  • 视频一页网站怎么做北京高端网站建设有限公司
  • asp.net做三个网站官网搭建