当前位置：首页 > news >正文

CS231n-2017 Lecture4神经网络笔记

news 2025/10/29 21:09:11

神经网络：

我们之前的线性分类器可以接受输入，进而给出评分，这是一种线性变换，再此基础上，我们对这种线性变换结果进行非线性变换，并输入到下一层线性分类器中，这个过程就像是人类大脑神经的运作一样，神经元接受信号，并输出神经递质给下一个神经元，表示是兴奋（正权重）/抑制（负权重）

激活函数：

上文提到的非线性变换，即使用激活函数，显然激活函数是非线性函数

常用的激活函数如下：

1.Sigmoid函数

$\sigma(x) = \frac{1}{1+e^{-x}}$

这个函数接受实数值，并将很大的负数变为0（抑制信号），很大的正数变为1（兴奋信号）

但在实际上已经很少使用，主要是因为以下两个缺点：

(1) Sigmoid函数饱和会使梯度消失

当激活函数的输出接近0或者接近1时，这里的局部梯度几乎为0，这就会导致一个问题，在反向传播的时候，我们要求的梯度会与这里的局部梯度相乘，从而导致要求的梯度为0，所谓梯度消失，则这个梯度对应的变量的信号将无法再传递

同时，为了防止这种饱和，需要在初始化权重矩阵时特别小心，否则就会导致很多神经元过饱和，神经网络无法再继续学习

(2) Sigmoid函数的输出不是以0为中心的

由于后续的神经元会以前面神经元的激活函数输出作为输入，导致其接收的输入总是正数，那么在反向传播的时候，会导致梯度要么全为正数，要么全为负数（比如对于 $f = Wx+b, x>0$ ,会导致 $\nabla_Wf>0$ ），这会导致梯度下降权重更新的时候忽然很大的正向忽然很大的负向所产生的z字形的下降。不过，在整个batch的数据的梯度被加起来后，对于权重的最终更新会有不同的正负，这样就一定程度地减轻了这个问题

2.Tanh函数

$tanh(x) = 2\sigma(2x) - 1 = \frac{e^x-e^{-x}}{e^x+e^{-x}}$

这个函数将实数值压缩到 $[-1,1]$ 之间

它也存在饱和问题，但和sigmoid函数不同的是，它的输出是以0为中心的

3.ReLU函数

$ReLU(x) = \begin{cases} 0\text{,} & x<0 \\ x\text{,}& otherwise \end{cases}$

优点：

1.相较于Sigmoid和Tanh，ReLU对随机梯度下降的收敛有巨大的加速作用

2.ReLU的计算资源开销较少，只需要对矩阵进行阈值计算得到

缺点：

当很大的梯度经过ReLU的神经元时，梯度下降将x更新至负数或者接近0，那么就会损失掉这个神经元的梯度，导致其死亡

这种情况在学习率较高的时候出现频率较高，由于步长过长，导致x在一次权重更新时就下降到0

4.Leaky ReLU

为了解决ReLU的死亡问题，我们对其进行改进，使公式变为

$Leaky ReLU(x) = \begin{cases} 1\text{ ,}& x<0\\ 1+\alpha x\text{,}& otherwise \end{cases}$

其中 $\alpha$ 是一个小常量

5.Maxout函数

$Maxout = max{(W_1x+b_1,W_2x+b_2)}$

可以发现ReLU是Maxout的特殊情况，即 $W_1 = 0, b_1 = 0$

则Maxout拥有ReLU的所有优点，而没有其缺点

但由于 $W_1,b_1$ 的存在，它每个神经元的参数都增加了一倍

激活函数的选择问题：

通常建议使用ReLU，并注意设置学习率，监控网络中死亡神经元的比例，若死亡比例较高，则可以尝试使用Leaky ReLU或Maxout，也可以尝试tanh，但不推荐sigmoid

神经网络结构：

层状结构：

神经网络被建模成神经元的集合，神经元之间以无环图的形式连接，通常是分层的，最普通的是全连接层(fully-connected layer)，全连接层中的神经元与其前后两层的神经元是完全成对连接的，但在同一个全连接层的神经元之间没有连接，如图：

命名规则：

当我们说N层神经网络的时候，不把输入层算作一层

可使用ANN(Artificial Neural Networks)或MLP(Multi-Layer Perceptrons)来指代神经网络

输出层：

输出层通常没有激活函数

网络尺寸：

衡量神经网络尺寸的标准有两个：

1.神经元的个数

2.参数的个数

以上图举例

第一个网络有4+2=6个神经元（不算输入层）， $3\times4+4\times2=20$ 个权重参数，还有4+2=6个偏置，共26个可学习的参数

同理，第二个网络有41个可学习的参数

神经网络前向传播计算举例：

将神经网络组成层状，会方便我们使用矩阵乘法进行前向传播，以上图右边的神经网络举例

输入是 $[3\times1]$ 的向量，一个层所有连接的权重可以储存在一个矩阵中，比如第一个隐藏层的权重矩阵是一个 $[4\times3]$ 的矩阵 $W_1$ ，偏置是 $[4\times1]$ 的向量 $b_1$ ，假设第一层的激活函数为f，则 $f(W_1x+b_1)$ 即可得到第一个隐藏层的输出，后面几层的运算同理

表达能力：

可以这样来理解具有全连接层的神经网络，它们定义了一个由一系列函数组成的函数族，网络的权重就是每个函数的参数，已被证明，给出任意连续函数 $f(x)$ 和任意 $\epsilon>0$ ，均存在至少含1个隐藏层的神经网络 $g(x)$ , 使得 $|f(x) - g(x)|< \epsilon$ 即神经网络可以近似任何连续函数