当前位置: 首页 > news >正文

【CV 目标检测】Fast RCNN模型②——算法流程

Fast RCNN 算法流程

(1)算法流程

  1. 候选区域生成:使用选择性搜索的方法找出图片中可能存在目标的候选区域,只需要后续按区域的位置信息
  2. CNN网络特征提取:将整张图像输入到CNN网络中,得到整幅图的特征图,并将上一步获取的候选区域位置从原图映射到该特征图上
  3. ROIpooling:对于每个特征图上候选框,ROIpooling层从特征图中提取固定长度的特征向量,每个特征向量被送入一系列全连接层(fc)中
  4. 目标检测:分两部分完成,一个输出各类别加上1个背景类别的Softmax概率估计,另一个为各类别的每一个类别输出四个实数值,来确定目标的位置信息。
A、候选区域生成

同RCNN中一样

B、CNN网络特征提取

与RCNN中一样,使用预训练模型进行特征提取

C、ROI Pooling

候选区域从原图映射到特征图中后,进行ROIpooling的计算

ROI Pooling层使用最大池化将输入的特征图中的任意区域(候选区域对应的区域)内的特征转化为固定的H×WH\times WH×W的特征图,其中HHHWWW是超参数。对于任意输入的h×wh\times wh×w的候选区域,将其分割为H×WH\times WH×W的子网格,每个网格的大小为:(hH)×(wW)(\frac{h}{H})\times (\frac{w}{W})(Hh)×(Ww),取每个子网格中的最大值,送入后续网络中进行处理

使用ROI Pooling层替换预训练网络中最后的池化层,并将超参H,WH,WHW设置为和网络第一个全连接兼容的值,例如VGG6,设H= W= 7

D、目标分类和回归
(最后一个全连接层)
原网络的最后一个全连接层替换为两个同级层(分类任务和回归任务):K+1个类别的SoftMax分类层和边框的回归层
● K:VOC数据集中为20;COCO数据集中为80
● +1:多了一个背景层

上面红框中的为同一个FC层(边框的回归层实现——输出四个实数值,用来确定位置信息)

http://www.dtcms.com/a/335642.html

相关文章:

  • 【递归、搜索与回溯算法】记忆化搜索
  • 图解希尔排序C语言实现
  • 分治-归并-315.计算右侧小于当前元素的个数-力扣(LeetCode)
  • Java基础 8.17
  • Debug马拉松:崩溃Bug的终极挑战
  • 一起Oracle 19c bug 导致的业务系统超时问题分析
  • JUC常用线程辅助类详解
  • Blender模拟结构光3D Scanner(二)投影仪内参数匹配
  • 积鼎科技CFD VirtualFlow:引领国产多相流仿真技术,赋能工业智造
  • (一)React企业级后台(Axios/localstorage封装/动态侧边栏)
  • 【React 性能】性能优化第一课:搞懂 `React.memo`, `useCallback`, `useMemo`
  • 重学React(六):脱围机制二
  • Spark03-RDD02-常用的Action算子
  • WebSocket DevTools 开发调试工具完全指南 – 实时监控、消息拦截、性能分析一站式解决方案
  • 【Java后端】Spring Boot 集成 MyBatis 全攻略
  • 遥感数字图像处理教程——第二章部分课后习题
  • Java零基础笔记20(Java高级技术:单元测试、反射、注解、动态代理)
  • Oracle Undo Tablespace 使用率暴涨案例分析
  • 前端vue3+后端spring boot导出数据
  • 《香农之息》(终章·镜渊)
  • 从零到一:打包并发布你的第一个MCP AI工具服务
  • Qt | 四种方式实现多线程导出数据功能
  • RAG学习(二)
  • 零墨云A4mini打印机设置电脑通过局域网络进行打印
  • scikit-learn/sklearn学习|多任务套索回归MultiTaskLasso解读
  • 如何利用gemini-cli快速了解一个项目以及学习新的组件?
  • 业务员手机报价软件免费领取——仙盟创梦IDE
  • Kotlin集合概述
  • 【LeetCode】13. 罗马数字转整数
  • 不止于“渲染图”:从Adobe Stager到Three.js的交互式Web3D工作流