当前位置: 首页 > news >正文

YOLOv1/v2

一、YOLO-V1 核心内容

YOLO-V1 是经典的 one-stage 目标检测模型,核心是将检测问题转化为回归问题,用单个 CNN 完成任务,可实现视频实时检测。

  1. 核心设计
    • 输入图像被划分为 7×7 网格,每个网格预测 2 个边界框(Bounding boxes)及对应置信度,同时预测 20 个类别的概率。
    • 输出特征图维度为 7×7×30,计算方式为(S×S)×(B×5+C),其中 S=7(网格数)、B=2(每个网格边界框数)、C=20(类别数),5 代表边界框的 x、y、w、h 和置信度。
  2. 网络架构:基于 GoogLeNet 修改,共 20 层,包含卷积层、池化层和全连接层,输入尺寸为 448×448×3,最终通过全连接层和 Reshape 得到 7×7×30 的输出。
  3. 损失函数:分三部分计算,分别是边界框位置误差、置信度误差(含物体和不含物体两种情况)、类别概率误差,通过不同权重平衡各部分损失。
  4. 关键技术:使用非极大值抑制(NMS)过滤冗余检测框,保留置信度高的最终检测结果。
  5. 优缺点
    • 优点:检测速度快(FPS 高)、结构简单,适用于实时场景。
    • 缺点:每个网格仅预测一个类别,无法解决物体重叠问题;小物体检测效果较差,边界框长宽比选择单一。

二、YOLO-V2 核心内容

YOLO-V2 在 V1 基础上进行多方面优化,实现 “更快、更强” 的检测效果,VOC2007 数据集 mAP 从 63.4 提升至 78.6。

  1. 核心改进技术
    • Batch Normalization:舍弃 Dropout,所有卷积层后加入该操作,对输入归一化,加速网络收敛,提升 2% mAP,现已成为网络标配。
    • 高分辨率训练:V1 训练用 224×224 尺寸、测试用 448×448,易导致模型适配问题;V2 额外进行 10 次 448×448 尺寸微调,提升约 4% mAP。
    • 新网络架构(DarkNet):输入尺寸 416×416,无全连接层,通过 5 次降采样得到 13×13 特征图;使用 1×1 卷积减少参数,提升计算效率。
    • 聚类提取先验框:不同于 Faster R-CNN 的固定先验框比例,通过 K-means 聚类(距离计算为 1-IOU)生成适配数据集的先验框,提升检测准确性。
    • 引入 Anchor Box:使预测边界框数量增至 13×13×n(n 为聚类得到的先验框数量),召回率从 81% 提升至 88%。
    • 直接位置预测(Directed Location Prediction):不使用直接偏移量,而是预测相对网格单元的偏移量,通过 σ 函数限制偏移范围,避免训练初期模型不稳定。
    • 细粒度特征融合(Fine-Grained Features):融合浅层小感受野特征与深层大感受野特征,解决深层特征丢失小目标信息的问题,提升小物体检测效果。
    • 多尺度训练(Multi-Scale):训练中每隔一定迭代次数改变输入图像尺寸,范围为 320×320 至 608×608,增强模型对不同尺寸目标的适应能力。
  2. 感受野相关补充:特征图上的点对应原始图像的区域即感受野,堆叠 3 个 3×3 卷积核(步长 1)与 1 个 7×7 卷积核感受野相同,但前者参数更少(27C² vs 49C²),且能增加非线性变换和特征提取细致度,这是 VGG 网络及 YOLO-V2 优化的重要思路。

三、V1 与 V2 核心差异对比

对比维度YOLO-V1YOLO-V2
网络架构基于 GoogLeNet,含全连接层DarkNet,无全连接层,用 1×1 卷积减参
先验框无,每个网格固定 2 个边界框有,K-means 聚类生成适配先验框
训练尺寸训练 224×224,测试 448×448训练微调 448×448,支持 320-608 多尺度
位置预测直接偏移量,易不稳定相对网格偏移量,σ 函数限制范围
特征融合融合细粒度特征,提升小物体检测
mAP(VOC2007)63.478.6

http://www.dtcms.com/a/491018.html

相关文章:

  • 算法专题十二:二叉树的深搜
  • 建设旅游信息网站的好处职业学院网站建设
  • 【vue】设置时间格式
  • 泰安网站建设方案为网站做一则广告
  • 23种设计模式——状态模式(State Pattern)
  • 管理系统布局框架中都包含哪些要素?导航、面包屑、tab等
  • 制作企业网站的app如何做网校网站
  • 卷积值提取
  • [Android] Alarm Clock Pro 11.1.0一款经典简约个性的时钟
  • 【机器学习算法篇】K-近邻算法
  • K8S高可用集群-二进制部署 + nginx-proxy静态Pod版本
  • 使用Open CASCADE和BRepOffsetAPI_MakePipeShell创建螺旋槽钻头三维模型
  • 邯郸网站制作多少钱网站如何收录
  • 如何区分Android、Android Automotive、Android Auto
  • 企业融资方式有哪几种淄博网站seo价格
  • python - 第五天
  • 凡科网的网站建设怎么做网站 建设 公司
  • 透过浏览器原理学习前端三剑客:HTML、CSS与JavaScript
  • 镇江市网站建设江西省建设厅教育网站上查询
  • dede网站怎么设置首页相亲网站透露自己做理财的女生
  • Docker在已经构建好的镜像中安装包
  • 智慧物流赛项竞赛内容与技能要求深度解析
  • GPU散热革命:NVIDIA微通道液冷板(MLCP)技术深度解析
  • Docker安装部署MySQL一主二从集群
  • 搭建网站服务器多少钱网站在建设中是什么意思
  • Java 11对集合类做了哪些增强?
  • SQLSugar框架数据库优先
  • 工程建设教育网站北京网站建设cnevo
  • Vector数据库性能大比武:Pinecone、Weaviate、Chroma速度与准确率实测
  • 天津老区建设促进会网站移动开发的现状和前景