当前位置: 首页 > news >正文

深度学习------YOLOV3

目录

一、先聊感受:v3 为什么能 “封神”?

二、核心改进 1:多尺度检测 —— 小、中、大目标 “一网打尽”

1. 3 个 scale 怎么分工?

2. 为什么不用图像金字塔?

三、核心改进 2:残差连接 + Darknet-53— 网络深了也不 “退化”

1. 残差连接怎么工作?

2. Darknet-53 的优势

四、核心改进 3:9 种先验框 + 标签改进 — 框更准、分类更灵活

1. 9 种先验框:覆盖所有常见目标形状

2. 用 Logistic 替代 Softmax:支持多标签分类

五、新手总结:学 v3 要先抓这 3 个重


YOLOv3 拆解:多尺度检测 + 残差网络,终于搞定小目标和精度难题

      跟着学完 YOLOv1 和 v2 后,总觉得差了点意思 ——v1 漏小目标、v2 对密集物体还是吃力,直到今天上手 YOLOv3,才算明白 “精度和速度兼顾” 的正确打开方式。它没搞花里胡哨的新框架,而是把多尺度特征、残差连接这些经典思路揉进 YOLO 体系,直接把小目标检测和整体精度提了一个档次。结合自己的笔记和实操感受,把 v3 最核心的知识点拆给新手看,避开我踩过的理解误区。

一、先聊感受:v3 为什么能 “封神”?

       刚跑 v3 的测试代码时,最直观的变化是 “以前看不到的小目标,现在能框住了”—— 比如图角落里的小飞鸟、远处的行人,v2 要么漏检要么框不准,v3 却能精准标出来。查了数据才知道,v3-608 尺寸在 COCO 数据集上 mAP 能到 57.9,比 v2 高了快 10 个点,还能保持 51 FPS 的实时速度,这也是它至今还在很多项目里用的原因。

      它的核心逻辑其实很简单:用更细的特征、更多的框、更稳的网络,解决 v1 和 v2 没搞定的小目标、定位不准、泛化差这三个痛点。下面逐个拆这些改进,都是新手必须吃透的 “关键操作”。

二、核心改进 1:多尺度检测 —— 小、中、大目标 “一网打尽”

      v3 最大的突破是 “多尺度特征融合”,之前 v1 和 v2 只靠最后一层特征图预测,小目标早就被下采样 “磨没了”,而 v3 用了 3 个不同分辨率的特征图,让每个尺度各司其职。

1. 3 个 scale 怎么分工?

       v3 把输入图缩成 416×416(也支持 320、608),通过 5 次下采样(stride=2)得到 13×13 的特征图,然后在此基础上做两次 “上采样 + 特征融合”,最终得到 3 个 scale 的预测图:

  • 52×52 特征图:感受野最小(能看到原始图的小区域),专门抓小目标(比如小鸟、交通标志),每个网格预测 3 个小尺寸先验框(10×13、16×30、33×23);
  • 26×26 特征图:感受野中等,负责中目标(比如小狗、摩托车),配 3 个中尺寸先验框(30×61、62×45、59×119);
  • 13×13 特征图:感受野最大(能看到整幅图),搞定大目标(比如汽车、大象),用 3 个大尺寸先验框(116×90、156×198、373×326)。

      我画了张示意图才想通:上采样时会把深层的 “语义特征”(比如 “这是个动物”)和浅层的 “细节特征”(比如 “有羽毛 / 毛发”)拼在一起,这样小目标既有细节又有类别信息,自然能被检测到。之前 v2一张有 “猫 + 蝴蝶” 的图,蝴蝶直接被漏检,换 v3 的 52×52 尺度后,蝴蝶的框清清楚楚。

2. 为什么不用图像金字塔?

      之前学传统检测时用过 “图像金字塔”—— 把图缩成不同尺寸分别检测,再拼结果,虽然也能多尺度,但速度太慢(一张图要跑多次网络)。v3 的优势是 “单网络多尺度”,只跑一次就能输出 3 个 scale 的结果,速度比金字塔快 3 倍以上,还能避免不同尺度间的误差累积。

三、核心改进 2:残差连接 + Darknet-53— 网络深了也不 “退化”

      v2 的 Darknet-19 只有 19 层,想加深网络提精度却会 “梯度消失”,v3 直接把网络换成 Darknet-53(53 个卷积层),靠的就是残差连接,这也是 ResNet 的核心思想。

1. 残差连接怎么工作?

      简单说就是 “给网络开后门”:把某一层的输入(叫 identity 映射)直接加到这几层卷积的输出上,公式是H(x) = F(x) + x。比如 v3 里用的是 “1×1 卷积降维→3×3 卷积提特征→1×1 卷积升维” 的残差块,然后把输入 x 和输出 F (x) 相加。

这么做的好处很明显:

  • 避免梯度消失:梯度能通过 identity 映射直接回传,深层网络也能训练;
  • 特征更细:53 层比 19 层能提取更多细节,比如小目标的边缘、纹理;
  • 不增加太多计算:1×1 卷积能降维,比如把 256 通道降到 64,再用 3×3 卷积,参数量比直接用 3×3 少很多。

      我跑简化版代码时对比过:没加残差的 Darknet-53,训练到 20 轮损失还在 10 以上,加了残差后,10 轮就降到 3 以下,而且损失曲线特别平滑,没有 “忽上忽下” 的情况。

2. Darknet-53 的优势

      它还有个细节:全程用卷积和残差,没有池化和全连接层 —— 下采样靠 stride=2 的卷积实现(比如第一个卷积 stride=2,把 416×416 缩成 208×208),这样特征图的尺寸控制更灵活,也避免了池化带来的细节丢失。

四、核心改进 3:9 种先验框 + 标签改进 — 框更准、分类更灵活

v3 在 v2 的基础上优化了 “框预测” 和 “分类”,让检测的两个核心任务都更靠谱。

1. 9 种先验框:覆盖所有常见目标形状

v2 用 K-Means 聚了 5 种先验框,v3 直接加到 9 种,还按尺度分组:

  • 13×13(大目标):116×90、156×198、373×326(适合汽车、人、大象);
  • 26×26(中目标):30×61、62×45、59×119(适合小狗、自行车、沙发);
  • 52×52(小目标):10×13、16×30、33×23(适合小鸟、钥匙、交通灯)。

      这些尺寸不是瞎设的,是从 COCO 和 VOC 数据集的真实框里聚出来的,比如小目标的先验框大多是 “瘦长” 或 “小巧” 的,刚好匹配真实场景里的小物体形状。我标数据时发现,用 v3 的先验框,模型预测的框和真实框的 IoU 比 v2 高了 15% 左右,定位精度明显提升。

2. 用 Logistic 替代 Softmax:支持多标签分类

      v1 和 v2 用 Softmax 做分类,只能给每个目标贴一个标签(比如 “猫” 就不能是 “宠物”),但实际场景里很多物体有多个标签(比如 “带项圈的猫” 既是 “猫” 也是 “宠物”)。v3 把 Softmax 换成 Logistic 激活函数,每个类别单独预测 “是 / 不是”,输出概率 0~1,这样就能支持多标签任务。

      比如我测过一张 “穿衣服的狗” 的图,v2 只能预测 “狗”,v3 能同时输出 “狗”(概率 0.98)和 “宠物”(概率 0.92),分类更贴合实际需求。

五、新手总结:学 v3 要先抓这 3 个重点

      今天啃完 v3,发现它不是 “凭空创造”,而是把之前学过的多尺度、残差、K-Means 这些知识点 “组合优化”,新手不用怕复杂,先吃透这三点就行:

  1. 多尺度是核心:记住 52×52(小)、26×26(中)、13×13(大)的分工,理解 “上采样 + 特征融合” 为什么能救小目标;
  2. 残差是基础:知道H(x)=F(x)+x怎么避免梯度消失,为什么 Darknet-53 能比 v2 深这么多;
  3. 先验框和分类要灵活:9 种框按尺度分,Logistic 支持多标签,这些都是从 “实用” 角度出发的改进。

       接下来打算跑一遍 v3 的简化代码,重点看多尺度特征怎么在代码里实现,要是有同样在学 YOLO 的朋友,欢迎交流怎么调参能让小目标检测更准~

http://www.dtcms.com/a/497194.html

相关文章:

  • 中国建设银行西平支行网站平价网站平价网站建设建设
  • 免费校园网站建设ceo是什么意思是什么职位
  • 网站分成推广怎么做物业网站模板下载
  • 丰台网站开发公司营销型网站建设市场分析
  • 网站建设费用要求怎么创建网站app
  • 国外室内设计网站大全网站赤壁网站建设
  • 满堂彩谁做的网站项目公司crm系统管理
  • 辽宁做网站和优化哪家好广东专业的网络推广
  • wordpress适合电影网站的模板微信怎么申请小程序
  • 如何给自己网站做网站优化株洲公司做网站
  • 【项目】【抽奖系统】注册功能实现
  • 银川网站建设哪家价格低市场营销管理是做什么的
  • 云南高端网站建设wordpress4.7 php版本
  • python编程之异常处理
  • 具身智能之旅001
  • 做动效很好的网站wordpress 博主
  • 商城网站建设模板下载注册公司费用最低多少
  • 【Kymo AI应用案例】一本教育X Kymo:用AI实现作业秒级批改
  • 农业行业网站建设网站建设与管理方案书
  • 奉化网站建设报价安装网站提示dir
  • 上海网站制作开发公司网站建设利弊
  • 做网店哪些网站比较好沧州网站建设培训
  • i/o旅程
  • 网站源码.netoa办公系统官网
  • 创建一个网站需要多少钱营销微网站建设公司
  • 萍乡网站建设可以做围棋题的网站
  • 网站建设 做一个网站需要多少钱景观设计师如何做网站
  • 泊头市网站建设品牌策划工作内容
  • 淮安哪里做网站玉林城乡住房建设厅网站
  • 收益指标的计算公式