当前位置：首页 > news >正文

【深度学习】2. 从梯度推导到优化策略：反向传播与 SGD, Mini SGD

news 2025/11/10 23:34:30

反向传播算法详解

1. 前向传播与输出层误差定义

假设我们考虑一个典型的前馈神经网络，其最后一层为 softmax 分类器，损失函数为交叉熵。

前向传播过程

在这里插入图片描述

对于某一隐藏层神经元 $j$ ：

输入： $x_i$
权重： $w_{ji}$
线性组合：
$\text{net}_j = \sum_i w_{ji} x_i = \mathbf{w}_j^\top \mathbf{x}$
激活输出：
$y_j = f(\text{net}_j)$

最终输出层采用 softmax 函数，输出概率：
$z_k = \frac{e^{\text{net}_k}}{\sum_{k'} e^{\text{net}_{k'}}}$

训练误差（Training Error）

在训练神经网络时，损失函数（training error）用于衡量预测输出 $\mathbf{z}$ 与目标标签 $\mathbf{t}$ 之间的距离。常见的损失函数包括以下三种形式：

1. 欧几里得距离（Euclidean distance）

这是最基本的损失函数形式，适用于回归任务或输出不是概率分布时：
$\frac{1}{2} \sum_{k=1}^{C} (t_k - z_k)^2 = \frac{1}{2} \| \mathbf{t} - \mathbf{z} \|^2$

其中：

$C$ 是输出类别数
$\mathbf{t}$ 是目标向量
$\mathbf{z}$ 是模型输出

它表示的是平方误差损失，数值意义上等价于 L2 范数。

2. 交叉熵（Cross Entropy）

当 $\mathbf{t}$ 和 $\mathbf{z}$ 都是概率分布（如 one-hot 和 softmax 输出）时，更推荐使用交叉熵损失：
$\sum_{k=1}^{C} t_k \log z_k$

该形式特别适合用于多分类问题，且与 softmax 联合使用可得到简洁的梯度表达式。

3. 对称交叉熵（Symmetric Cross Entropy）

标准交叉熵是非对称的，即 $\ne J(z, t)$ 。为了在某些任务中保持对称性，可以使用如下形式：
$\sum_{k=1}^{C} (t_k \log z_k + z_k \log t_k)$

这种形式在一些模糊标签、不确定性建模或鲁棒学习中更常见，但需要确保 $t_k > 0$ 且 $z_k > 0$ ，否则 log 项会出现数值问题。

小结

损失函数类型	应用场景
欧几里得距离	回归或非概率输出
交叉熵	分类任务，概率分布输出（softmax）
对称交叉熵	非对称性敏感的分类问题

交叉熵损失（Cross Entropy Loss）

在分类任务中，当目标分布 $\mathbf{t}$ 和模型输出 $\mathbf{z}$ 都是概率分布时，交叉熵是一种常用的损失函数，用于衡量两个分布之间的“差异”或“信息损失”。

定义：

给定两个概率分布 $\mathbf{t} = \{t_1, \dots, t_C\}$ 和 $\mathbf{z} = \{z_1, \dots, z_C\}$ ，交叉熵定义为：

$\text{CrossEntropy}(t, z) = -\sum_i t_i \log z_i$

推导展开：

交叉熵可以拆解为熵（Entropy）和 KL 散度（Kullback-Leibler Divergence）之和：

$\begin{aligned} \text{CrossEntropy}(t, z) &= -\sum_i t_i \log z_i \\ &= -\sum_i t_i \log t_i + \sum_i t_i \log \frac{t_i}{z_i} \\ &= \text{Entropy}(t) + D_{\text{KL}}(t \| z) \end{aligned}$

其中：

$\text{Entropy}(t) = -\sum_i t_i \log t_i$
$D_{\text{KL}}(t \| z) = \sum_i t_i \log \frac{t_i}{z_i}$

解释说明：

Entropy（熵） 是衡量分布不确定性的度量，值越高表示分布越“混乱”。
KL 散度 衡量两个分布之间的差异，是一个非对称的距离度量（即 $D_{\text{KL}}(t \| z) \ne D_{\text{KL}}(z \| t)$ ）。

面积越大 → 两分布差异越大 → KL 越大

图示直观理解：
在这里插入图片描述

总结：

名称	数学形式	说明
交叉熵	$-\sum_i t_i \log z_i$	衡量预测分布 $z$ 与真实分布 $t$ 的差异
熵	$-\sum_i t_i \log t_i$	测量目标分布自身的不确定性
KL 散度	$\sum_i t_i \log \frac{t_i}{z_i}$	模型 $z$ 逼近目标 $t$ 时的信息损失

因此，交叉熵 = 熵 + KL 散度，是一个包含两部分含义的损失函数。

2. Softmax

在多类分类中，输出层之前的softmax函数是为每个类分配条件概率
$\text{softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^C e^{z_j}}$

3. 隐藏层权重更新与链式法则

我们首先来看从隐藏层到输出层的权重 $w_{kj}$ （第 $j$ 个隐藏神经元到第 $k$ 个输出神经元）。

使用链式法则：

$\frac{\partial J}{\partial w_{kj}} = \frac{\partial J}{\partial \text{net}_k} \cdot \frac{\partial \text{net}_k}{\partial w_{kj}} = \frac{\partial J}{\partial \text{net}_k} \cdot y_j$

其中：

$\text{net}_k$ 是输出神经元 $k$ 的加权输入：
$\text{net}_k = \sum_{j=1}^{n_H} y_j w_{kj} + w_{k0}$
$y_j$ 是隐藏层神经元 $j$ 的激活输出
$J$ 是整体损失函数，使用欧几里得损失：
$J(\mathbf{w}) = \frac{1}{2} \|\mathbf{t} - \mathbf{z}\|^2$

即误差对每条连接的权重 $w_{kj}$ 的导数，取决于该输出神经元的误差信号 $\frac{\partial J}{\partial \text{net}_k}$ 乘以隐藏层输入 $y_j$ 。

现在我们推导从输入层到隐藏层的权重 $w_{ji}$ （输入 $x_i$ 到隐藏神经元 $y_j$ ）。

应用多级链式法则：

$\frac{\partial J}{\partial w_{ji}} = \frac{\partial J}{\partial y_j} \cdot \frac{\partial y_j}{\partial \text{net}_j} \cdot \frac{\partial \text{net}_j}{\partial w_{ji}}$

先求 $\frac{\partial \text{net}_j}{\partial w_{ji}} = x_i$
激活函数导数： $\frac{\partial y_j}{\partial \text{net}_j} = f'(\text{net}_j)$
关键： $\frac{\partial J}{\partial y_j}$ 不能直接求出，但可以通过反向传播累加自输出层所有神经元：

$\frac{\partial J}{\partial y_j} = \sum_{k=1}^C \frac{\partial J}{\partial z_k} \cdot \frac{\partial z_k}{\partial y_j}$
- 其中 $\frac{\partial z_k}{\partial y_j} = f'(\text{net}_k) \cdot w_{kj}$
- 若 $z_k$ 是 softmax 输出， $\frac{\partial J}{\partial \text{net}_k} = z_k - t_k$

所以完整形式为：

$\frac{\partial J}{\partial w_{ji}} = \left( \sum_k (z_k - t_k) w_{kj} \right) \cdot f'(\text{net}_j) \cdot x_i$

总结

权重类型	梯度表达式
输出层 $w_{kj}$	$\frac{\partial J}{\partial w_{kj}} = \delta_k \cdot y_j$ ，其中 $\delta_k = \frac{\partial J}{\partial \text{net}_k}$
输入层 $w_{ji}$	$\frac{\partial J}{\partial w_{ji}} = \delta_j \cdot x_i$ ，其中 $\delta_j$ 由输出层误差反向传递计算得出

整个反向传播过程建立在链式法则之上，通过分层计算误差信号，并逐层传播与更新权重。

4. 梯度消失与爆炸问题

在深层神经网络中，误差信号需从输出层通过多层链式导数逐步反向传播至输入层。在此过程中，梯度可能出现以下数值不稳定现象：

梯度消失（vanishing gradients）

若激活函数的导数在大部分区域非常小（如 sigmoid 的最大导数仅为 0.25），那么反向传播时：
$\delta^{(l)} = f'(\text{net}^{(l)}) \cdot \sum_k w_{kj}^{(l+1)} \delta_k^{(l+1)}$
将不断被乘以小于 1 的数，导致越靠近输入层，梯度越趋近于 0，使得参数更新缓慢，甚至停滞。

梯度爆炸（exploding gradients）

相反，如果激活函数导数较大，或权重初始化不当（如值较大），则会导致链式乘积中项持续放大，最终使梯度数值迅速增大，导致训练不稳定甚至发散。

5. 应对策略与激活函数的选择

为了缓解梯度消失与爆炸问题，实践中可采用以下策略：

选用非饱和激活函数（如 ReLU、Leaky ReLU）以避免小梯度区间
使用归一化技巧（如 BatchNorm）以稳定各层输入分布
采用合适的权重初始化方式（如 Xavier 或 He 初始化）
在网络设计中控制层数与梯度路径长度

此外，近年来 Residual Connection（残差连接）和 Layer Normalization 等技术也在深层网络中得到广泛应用，用于缓解梯度问题。

综上所述，反向传播通过链式法则传播误差信号，是神经网络训练的核心机制。而要实现高效稳定的反向传播，需综合考虑激活函数选型、损失函数结构、权重初始化、归一化技术与模型深度等因素。

6. 随机梯度下降（SGD）与 Mini-batch 梯度下降

神经网络的训练本质上是通过优化某个损失函数 $J(\theta)$ 来寻找最佳参数 $\theta$ ，最常用的方法是基于梯度的优化方式。

梯度下降（Gradient Descent）

标准的批量梯度下降（Batch Gradient Descent）在每一次更新中使用整个训练集：

$\theta \leftarrow \theta - \eta \cdot \nabla_\theta J(\theta)$

优点：梯度方向准确
缺点：每次迭代计算成本高，不适合大数据集

随机梯度下降（SGD）

随机梯度下降在每次迭代中仅使用一个样本来估计梯度：

$\theta \leftarrow \theta - \eta \cdot \nabla_\theta J(\theta; x^{(i)}, y^{(i)})$

优点：更新频繁、可以快速跳出局部极小值
缺点：单样本噪声大，收敛不稳定

权值更新可能会减少所呈现的单个模式上的误差，但会增加整个训练集上的误差。

小批量梯度下降（Mini-batch SGD）

Mini-batch 是在全批量和完全随机之间的折中策略。每次迭代使用一个包含 $m$ 个样本的批次（mini-batch）计算梯度：

$\theta \leftarrow \theta - \eta \cdot \frac{1}{m} \sum_{i=1}^{m} \nabla_\theta J(\theta; x^{(i)}, y^{(i)})$

一般选用 $m = 32, 64, 128$ 等较小值
兼具效率与稳定性，适用于现代硬件并行处理

训练流程

将训练集打乱并分成若干 mini-batches
对每个 mini-batch：
- 前向传播计算输出
- 反向传播计算梯度
- 更新权重参数
多轮迭代直到收敛

小结

方法	每次更新使用样本数	优点	缺点
Batch	全部训练样本	梯度稳定	内存消耗大、速度慢
SGD	单一样本	快速跳出局部最优	更新方向不稳定
Mini-batch	少量样本（如 64）	训练速度与稳定性兼顾	最广泛使用的策略

使用 Mini-batch SGD 是现代深度学习训练的默认做法，通常配合动量、Adam 等优化器提升效果。

SGD 方法分析（SGD Analysis）

我们对两种常见的 SGD 训练方式进行优缺点对比分析：

单样本 SGD（One-example based SGD）

每次仅用一个样本估计梯度，因此噪声较大，更新方向波动明显
每次迭代开销小，比批量学习更快，尤其在数据存在冗余时效果更优
由于随机性高，噪声反而有助于跳出局部最小值
缺点是收敛路径不稳定，权重更新可能震荡，不一定收敛到稳定最优点

小批量 SGD（Mini-batch based SGD）

收敛性理论良好：梯度估计更平稳，易于分析收敛速度和稳定性
可结合批量加速技术（如 momentum、Adam、Nesterov）进行训练优化
由于噪声较小，更适合用于理论分析与调试模型行为

小结比较

项目	单样本 SGD	小批量 SGD
计算速度	每步快	中等
噪声/波动	大，有助于跳出局部最小值	小，梯度估计更稳定
收敛路径	易震荡，不一定收敛	更平稳，理论收敛性强
可结合技术	较少	支持大部分优化算法（如 Adam）
理论分析难度	高	易于分析与调试