当前位置：首页 > news >正文

小杰深度学习（fifteen）——视觉-经典神经网络——MobileNetV1

news 2025/10/18 8:26:33

传统的卷积神经网络要想有一个很好的效果的话，需要很大的参数量，同时由于参数量大，导致网络在预测时要求的算力也是非常大，那么对于手机、嵌入式等设备是非常不友好的。为能够在移动端进行部署。

MobileNet网络由谷歌团队在2017年提出，专注于移动端或者嵌入式设备中轻量级的卷积神经网络，相比传统的卷积神经网络呢，在准确率小幅降低的前提下，大大减少我们模型的参数以及运算量。

MobileNet全称是：Efficient Convolutional Natural Networks for Mobile Vision Applications。

论文地址：https://arxiv.org/pdf/1704.04861

Efficient Convolutional Natural Networks for Mobile Vision Applications.pdf

深度可分离卷积是一种全新的卷积方式，先看一下经典的卷积。

在上图中，输入是3个channel的矩阵，经过4个卷积核，每个卷积核包括3个3 x 3的卷积，得到了拥有4个输出矩阵。这是经典的卷积过程。也可以总结为：

卷积核的channel = 输入特征矩阵的channel

输出特征矩阵的channel = 卷积核个数

深度可分离卷积（Depthwise Separable Conv），是由两种卷积组成的，包括DW卷积（Depthwise Convolution,深度卷积）和PW卷积（Pointwise Conv，逐点卷积也就是1x1 Conv）组成,如下图所示。

1.DW卷积（Depthwise Convolution,深度卷积）

DW卷积的卷积核深度，即channel和传统的卷积不同，它的channel不等于输入特征矩阵的channel，而是等于1。

DW卷积的每一个卷积核负责一个输入特征矩阵的channel，那么总结下来：输入特征矩阵的channel = 卷积核个数 = 输出特征矩阵的channel

2.PW卷积（Pointwise Conv，逐点卷积）

在DW卷积之后，结果作为PW卷积的输入，PW卷积如下图所示：

在上图中可以看到，卷积核的channel与输入特征矩阵的channel相同，输出特征矩阵的深度与卷积核的个数是相同的。可以看出，PW卷积和普通卷积是一样的，只是卷积核的大小为1。

是卷积核个数的倍率，用来控制卷积过程中卷积核的个数，当取不同的

的时候，准确率、计算量和参数量是不一样的，Table 6中给出了不同的对比，如下图：

是分辨率参数，即输入图像尺寸的参数，当对输入的图像大小变为原始图像的

倍数时，会使得后继所有层的输入特征图都会缩小。需要注意的一点是，改变分辨率，只会对整个网络的计算量有影响，对参数量是不受影响的。下图是随着分辨率的减少，计算量也随之减少。Table 7中给出了不同的对比，如下图：

部分DW卷积核的参数会为0，主要有以下几个原因：

1.卷积核、通道数量以及权重数量太少，感受野太单薄；

2.Relu激活函数，会将小于 0 的值置为 0 。DW 卷积输出通道数相对少，特征维度低。在低维特征上使用 ReLU ，大量特征值可能被置为 0 ，造成信息丢失。

3.当使用如 float16、int8 低精度浮点数时，数值表示范围和精度受限。训练中，参数更新量可能因低精度表示无法准确记录，导致更新不精确。

在paper中的Table 1中给出了网络结构的图，如下图所示：

注意：原paper中有一处的步长写错了，应该是s1而不是s2，我在图中用红字做了标注。

结合虚拟仿真的组件，对MobileNetV1的网络结构进行分析。

注意：这里的类似于第二层-DW卷积和第三层-卷积一起组成了深度可分卷积，但是由于paper中的网络结构表格并没有将它们直接放在一起，所以这我们也将其分开处理。

输入特征矩阵是（224 x 224 x 3），本层卷积核的宽、高、通道、个数是（3 x 3 x 3 x 32），步长为2，padding方式为SAME，经过计算可知，输出特征矩阵为（112 x 112 x 32）。