当前位置: 首页 > news >正文

卷积神经网络的参数量及尺度变化计算

文章目录

  • 前言
  • 1.卷积
  • 2.参数量的计算
    • 2.1案例一
    • 2.2案例二
  • 3.奇怪的优化思想
    • 3.1使用小核卷积替换大核卷积
    • 3.2卷积核1×1的应用
  • 4.输出图像尺寸的计算
    • 4.1Same convolution
    • 4.2具体计算规则
    • 4.3转置卷积
  • 小结

前言

本篇博客主要介绍卷积基本概念,卷积神经网络的参数量计算、参数量优化的一些方法(VGG思想,1×1卷积核的应用)、输出图像尺寸的计算,同时也介绍了转置卷积(反卷积)中该如何计算输出图像的尺寸大小。

1.卷积

在深度学习的世界里,卷积操作如同一位默默耕耘的幕后英雄,支撑起图像识别、自然语言处理等众多领域的技术突破。无论是识别交通标志的自动驾驶系统,还是能理解人类语言的智能助手,背后都离不开卷积操作的强大力量。那么,卷积操作究竟是什么?
从数学角度来看,卷积是一种数学运算,用于描述两个函数如何通过某种方式相互作用,产生一个新的函数。在离散的数字信号处理场景下,卷积可以简单理解为两个序列通过特定的乘法和累加运算,得到一个新的序列,具体计算方式可以总结为8个字:翻褶、移位、相乘、相加,具体可见我之前博客的介绍卷积演示系统
而在计算机视觉领域,卷积与之类似,不同的是,处理的数据维度略有不同。
以3×3卷积核为例,其计算公式可以表示为;
g ( x , y ) = ∑ i = − 1 1 ∑ j = − 1 1 f ( x − i ) ( x − j ) ∗ w ( i , j ) g(x,y)=\sum_{i=-1}^{1}\sum_{j=-1}^{1}f(x-i)(x-j)*w(i,j) g(x,y)=i=11j=11f(xi)(xj)w(i,j)
其中w(i,j)表示卷积核,f(x,y)输入图像,g(x,y)为输出图像。
由于在训练过程中,学习的参数是w(i,j),因此加不加入翻褶区别并不大,因此在视觉领域一般不对卷积和进行翻褶操作。计算公式为:
g ( x , y ) = ∑ i = − 1 1 ∑ j = − 1 1 f ( x + i ) ( x + j ) ∗ w ( i , j ) g(x,y)=\sum_{i=-1}^{1}\sum_{j=-1}^{1}f(x+i)(x+j)*w(i,j) g(x,y)=i=11j=11f(x+i)(x+j)w(i,j)
这一操作准确来说应该称之为相关操作,但视觉领域一般并不区分这两种操作,统一称之为卷积操作
在这里插入图片描述

2.参数量的计算

在计算机视觉领域,卷积核不仅具有宽和高,还具有深度,常写成宽度×高度×深度的形式。
卷积核的参数不仅包括核中存储的权值,还包括一个偏置值。

2.1案例一

下面通过一个简单的例子介绍如何计算卷积和的参数量,这里定义如下网络:

import torch.nn as nn
class Net1(nn.Module):def __init__(self):super(Net1, self).__init__()self.conv1 = nn.Conv2d(1, 32, 5, padding=1)def forward(self, x):x = self.conv1(x)return x

该网络包括一个卷积层,输入通道数为1,输出通道数为32,卷积核大小为5×5,计算该层的参数量。
解释:因为输入通道数为1,因此卷积核大小可以表示为5×5×1,输出通道数为32,表明该层使用32个卷积核,同时每个卷积核有一个偏置值,因此参数量为:5×5×1×32+32=832。
通过代码验证可得:


from ptflops import get_model_complexity_infomodel = Net1()
ops, params = get_model_complexity_info(model, (1, 512, 512), as_strings=True,print_per_layer_stat=False, verbose=True)
params,5*5*1*32+32

运行结果:
在这里插入图片描述
这时可以看到,卷积操作的参数量核输入图像的尺寸大小无关,上述输入图像尺寸为1×512×512,如果使用全连接网络的话,那么此时输入层的结点个数为512×512=262144,如果隐含层结点个数为8,那么此时全连接网络的参数量为262144×8+8,之所以加8,是因为隐含层每个神经元都有一个偏置。
这是可以看到,卷积神经网络相对于全连接网络的优势,权值共享,参数量小
为什么称权值共享呢?因为每个特征图的计算依赖于同一个卷积核。

2.2案例二

为了避免你还未理清如何计算参数量这里再举一个例子,网络结构如下:

class Net2(nn.Module):def __init__(self):super(Net2, self).__init__()self.conv1 = nn.Conv2d(8, 32, 3, padding=1)def forward(self, x):x = self.conv1(x)return x

该网络包括一个卷积层,输入通道数为8,输出通道数为32,卷积核大小为3×3,计算该层的参数量。
解释:因为输入通道数为8,因此卷积核大小可以表示为3×3×8,输出通道数为32,表明该层使用32个卷积核,同时每个卷积核有一个偏置值,因此参数量为:3×3×8×32+32=2336。
代码验证:

model = Net2()
ops2, params2 = get_model_complexity_info(model, (8, 256, 256), as_strings=True,print_per_layer_stat=False, verbose=True)
params2,3*3*8*32+32

运行结果:
在这里插入图片描述

3.奇怪的优化思想

在卷积这一块,有很多优化思想,来所谓的减少参数量,这里主要介绍两种主流思想。

3.1使用小核卷积替换大核卷积

该思想来源于VGG网络的设计思想,论文地址:VGG网络模型,众所周知,之所以使用大核卷积,是为了获得更大的感受野,捕获更大的局部依赖关系。
前提知识:使用两个3×3的卷积核的感受野和一个5×5的卷积核的感受野大小一致。
这里我们定义两个网络,一个使用小核卷积,另一个使用大核卷积,假设每个卷积操作前后图像的深度保持不变。
大核卷积网络结构:

import torch.nn as nn
class Net1(nn.Module):def __init__(self):super(Net1, self).__init__()self.conv1 = nn.Conv2d(32, 32, 5, padding=2)def forward(self, x):x = self.conv1(x)return x

参数量:
在这里插入图片描述
小核卷积网络结构:

class Net3(nn.Module):def __init__(self):super(Net3, self).__init__()self.conv1 = nn.Conv2d(32, 32, 3, padding=1)self.conv2 = nn.Conv2d(32, 32, 3, padding=1)self.relu = nn.ReLU()def forward(self, x):x = self.conv1(x)x = self.relu(x)x = self.conv2(x)x = self.relu(x)return x

参数量:
在这里插入图片描述
从结果来看,小核卷积参数量更小,但能够和大核卷积达到相同的感受野。这就是为什么越来越多的网络结构使用小核卷积替换大核卷积。

3.2卷积核1×1的应用

这里直接举两个例子来介绍:
未使用1×1的卷积核:

class Net4(nn.Module):def __init__(self):super(Net4, self).__init__()self.conv1 = nn.Conv2d(256, 512, 3, padding=1)def forward(self, x):x = self.conv1(x)return x

参数量:
在这里插入图片描述
使用1×1卷积核:

class Net5(nn.Module):def __init__(self):super(Net5, self).__init__()self.conv1 = nn.Conv2d(256, 32, 1)self.conv2 = nn.Conv2d(32, 512, 3, padding=1)def forward(self, x):x = self.conv1(x)x = self.conv2(x)return x

参数量:
在这里插入图片描述
从结果来看,使用1×1的卷积核减少通道数,能够在一定程度上减少参数量,但在减少参数量的同时,输入的信息量也随之减少,如果输入的信息是一个稀疏矩阵的话,那么该方法确实适合减少参数量。

4.输出图像尺寸的计算

前面所说,都是考虑的是卷积的参数量,接着讨论输出图像尺寸如何计算。
卷积主要分为三种,Full convolution、Same convolution、valid convolution,这里主要介绍用处较多的一种,即Same convolution

4.1Same convolution

主要是设置padding参数的值
网络结构:

class Net6(nn.Module):def __init__(self):super(Net6, self).__init__()self.conv2 = nn.Conv2d(32, 512, 3, padding='same')def forward(self, x):x = self.conv2(x)return x

运行测试:

import torch
model = Net6()
I=torch.randn(32,128,128)
model(I).shape

运行结果:
在这里插入图片描述
解释:输入图像的尺寸为32×128×128,通过网络结构可以看出,该层使用512个卷积核,因此输出通道数为512,因为padding参数设置的是same,输出会保持图像的尺寸大小。
有时并不将其设置为same,而是设置一个具体的值,这里只是因为设置了same,其自动计算了一个具体的值代入进去了而已。

4.2具体计算规则

输出图像的尺寸,不仅和填充列数有关,还和卷积核大小以及卷积步长有关。具体计算公式如下:
W 2 = ( W 1 − F + 2 P ) S + 1 W_2=\frac{(W_1-F+2P)}{S}+1 W2=S(W1F+2P)+1
H 2 = ( H 1 − F + 2 P ) S + 1 H_2=\frac{(H_1-F+2P)}{S}+1 H2=S(H1F+2P)+1
其中, W 1 、 H 1 W_1、H_1 W1H1表示输入图像的尺寸大小, W 2 、 H 2 W_2、H_2 W2H2表示输出图像的尺寸大小,F为卷积核尺寸,S为卷积步长,P为零填充数量。
下面举一个详细的例子说明。
网络结构为:

class Net7(nn.Module):def __init__(self):super(Net7, self).__init__()self.conv2 = nn.Conv2d(32, 512, 5, padding=1,stride=2)def forward(self, x):x = self.conv2(x)return x

输出结果:
在这里插入图片描述
解释:根据公式计算即可,(128-5+2*1)/2+1=63,除法运算一律向下取整。输出通道数和卷积核个数512保持一致,因此输出形状为512×63×63。

4.3转置卷积

转置卷积(Transposed Convolution),又称反卷积(Deconvolution),具体计算方式也是卷积的逆运算。
由卷积计算公式为:
W 2 = ( W 1 − F + 2 P ) S + 1 W_2=\frac{(W_1-F+2P)}{S}+1 W2=S(W1F+2P)+1
H 2 = ( H 1 − F + 2 P ) S + 1 H_2=\frac{(H_1-F+2P)}{S}+1 H2=S(H1F+2P)+1
转置卷积,与其计算方式相反,相当于反函数的关系。
W 1 = S × ( W 2 − 1 ) − 2 P + F W_1=S×(W_2-1)-2P+F W1=S×(W21)2P+F
H 1 = S × ( H 2 − 1 ) − 2 P + F H_1=S×(H_2-1)-2P+F H1=S×(H21)2P+F
其中, W 1 、 H 1 W_1、H_1 W1H1表示输出图像的尺寸大小, W 2 、 H 2 W_2、H_2 W2H2表示输入图像的尺寸大小,F为卷积核尺寸,S为卷积步长,P为零填充数量。
下面举一个详细的例子说明。

class Net8(nn.Module):def __init__(self):super(Net8, self).__init__()# 转置卷积self.conv_transpose = nn.ConvTranspose2d(in_channels=32, out_channels=16, kernel_size=3, stride=2, padding=1)def forward(self, x):x = self.conv_transpose(x)return x

输出结果:
在这里插入图片描述
解释:根据公式计算即可,2*(128-1)-2*1+3,输出通道数和卷积核个数16保持一致,因此输出形状为16×255×255。

小结

通过本篇博客,相比你也能够计算卷积神经网络中图像尺寸如何变化的,快去找一个深层的网络试试看吧,看它的尺寸变化是否和你想的一样呢?可以试试本篇博客设计的网络模型——Unet语义分割模型

相关文章:

  • 【文献阅读】5%>100%: 打破视觉识别任务的完全微调的性能束缚
  • 简说ping、telnet、netcat
  • OpenVINO使用教程--resnet分类模型部署
  • 将图片合成为视频(基于 OpenCV)
  • 【Redis】集群
  • 21 - GAM模块
  • 基于单片机的PT100温度变送器设计
  • 一个前端正则校验引发的问题
  • JavaScript基础-事件对象
  • 前端开发中,实现多线程
  • 又来交作业了
  • 探险之物资储备c++
  • 系统设计基本功:理解语义
  • 代码随想录12|翻转单词|右旋字符串|实现strStr()|重复的子字符串
  • SCAU大数据技术原理雨课堂测验1
  • 深度解析SpringBoot自动化部署实战:从原理到最佳实践
  • TerraFE 脚手架开发实战系列(一):项目架构设计与技术选型
  • uni-app项目实战笔记12--创建分类列表完成页面跳转
  • TypeScript 类
  • 大IPD之——华为的管理变革与战略转型之道(三)
  • 做家旅游的视频网站/360竞价推广开户多少钱
  • 做网站市场/正版搜索引擎优化
  • 做英文网站内容来源/网站推广的具体方案
  • 晋州网站建设/电商代运营公司排名
  • 做受视频网站 mcb3dbd/营销的概念是什么
  • 网站目录结构怎么做/搜索引擎优化的方法