当前位置：首页 > news >正文

【CV 目标检测】Fast RCNN模型②——算法流程

news 2025/8/20 16:25:31

Fast RCNN 算法流程

(1）算法流程

候选区域生成：使用选择性搜索的方法找出图片中可能存在目标的候选区域，只需要后续按区域的位置信息
CNN网络特征提取：将整张图像输入到CNN网络中，得到整幅图的特征图，并将上一步获取的候选区域位置从原图映射到该特征图上
ROIpooling：对于每个特征图上候选框，ROIpooling层从特征图中提取固定长度的特征向量，每个特征向量被送入一系列全连接层（fc）中
目标检测：分两部分完成，一个输出各类别加上1个背景类别的Softmax概率估计，另一个为各类别的每一个类别输出四个实数值，来确定目标的位置信息。

A、候选区域生成

同RCNN中一样

B、CNN网络特征提取

与RCNN中一样，使用预训练模型进行特征提取

C、ROI Pooling

候选区域从原图映射到特征图中后，进行ROIpooling的计算

ROI Pooling层使用最大池化将输入的特征图中的任意区域（候选区域对应的区域）内的特征转化为固定的 $H×WH\times W$ 的特征图，其中 $H$ 和 $W$ 是超参数。对于任意输入的 $h×wh\times w$ 的候选区域，将其分割为 $H×WH\times W$ 的子网格，每个网格的大小为： $(hH)×(wW)(\frac{h}{H})\times (\frac{w}{W})$ ，取每个子网格中的最大值，送入后续网络中进行处理

使用ROI Pooling层替换预训练网络中最后的池化层，并将超参 $H ， W$ 设置为和网络第一个全连接兼容的值，例如VGG6，设H= W= 7

D、目标分类和回归
（最后一个全连接层）
原网络的最后一个全连接层替换为两个同级层（分类任务和回归任务）：K+1个类别的SoftMax分类层和边框的回归层
● K：VOC数据集中为20；COCO数据集中为80
● +1：多了一个背景层

上面红框中的为同一个FC层（边框的回归层实现——输出四个实数值，用来确定位置信息）

http://www.dtcms.com/a/335642.html

相关文章：

【递归、搜索与回溯算法】记忆化搜索

图解希尔排序C语言实现

分治-归并-315.计算右侧小于当前元素的个数-力扣(LeetCode)

Java基础 8.17

Debug马拉松：崩溃Bug的终极挑战

一起Oracle 19c bug 导致的业务系统超时问题分析

JUC常用线程辅助类详解

Blender模拟结构光3D Scanner（二）投影仪内参数匹配

积鼎科技CFD VirtualFlow：引领国产多相流仿真技术，赋能工业智造

(一)React企业级后台（Axios/localstorage封装/动态侧边栏）

【React 性能】性能优化第一课：搞懂 `React.memo`, `useCallback`, `useMemo`

重学React（六）：脱围机制二

Spark03-RDD02-常用的Action算子

WebSocket DevTools 开发调试工具完全指南 – 实时监控、消息拦截、性能分析一站式解决方案

【Java后端】Spring Boot 集成 MyBatis 全攻略

遥感数字图像处理教程——第二章部分课后习题

Java零基础笔记20（Java高级技术：单元测试、反射、注解、动态代理）

Oracle Undo Tablespace 使用率暴涨案例分析

前端vue3+后端spring boot导出数据

《香农之息》（终章·镜渊）

从零到一：打包并发布你的第一个MCP AI工具服务

Qt | 四种方式实现多线程导出数据功能

RAG学习（二）

零墨云A4mini打印机设置电脑通过局域网络进行打印

scikit-learn/sklearn学习|多任务套索回归MultiTaskLasso解读

如何利用gemini-cli快速了解一个项目以及学习新的组件？

业务员手机报价软件免费领取——仙盟创梦IDE

Kotlin集合概述

【LeetCode】13. 罗马数字转整数

不止于“渲染图”：从Adobe Stager到Three.js的交互式Web3D工作流