当前位置：首页 > news >正文

深度学习中的训练流程：从输入到权重更新的完整旅程

news 2025/10/25 7:07:35

在深度学习中，模型的学习过程是一个不断迭代优化的过程。本文将以一张经典的神经网络训练流程图为基础，深入浅出地阐述其核心机制——前向传播、损失计算与反向传播。通过理解这一循环，我们可以更好地掌握神经网络是如何“学会”从数据中提取特征并做出准确预测的。

🧠 1. 图解：深度学习训练流程

神经网络由多个“层”组成，每一层都对输入进行一次非线性变换。
每一层包含一组可学习的参数——权重（Weights） 和偏置（Bias），它们决定了输入如何被转换。
变换公式通常为： $\text{Output} = \sigma(W \cdot X + b)$
其中， $W$ 是权重矩阵， $b$ 是偏置项， $\sigma$ 是激活函数（如 ReLU、Sigmoid）

⚠️ 注意：这里的“Layer”可以是全连接层、卷积层、池化层等，但本质都是对数据的数学变换。

经过若干层的逐级变换后，最终输出的是模型的预测结果 $Y^{'}$ 。
在分类任务中， $Y^{'}$ 是每个类别的概率分布；在回归任务中，它是连续数值。

✅ 示例：对于 MNIST 分类，$ Y’ $ 是一个长度为 10 的向量，表示该图像属于 0~9 数字的概率。

优化器根据损失得分来决定如何调整权重。
常见的优化器
- SGD（随机梯度下降）：随机梯度下降（SGD）是一种优化算法，通过计算损失函数对模型参数的梯度，沿反方向更新权重以最小化误差。与批量梯度下降不同，SGD每次仅用一个样本或小批量数据计算梯度，具有更快的收敛速度和更强的跳出局部最优能力，广泛应用于深度学习模型训练。
- Adam：Adam（Adaptive Moment Estimation）是一种自适应学习率优化算法，结合了动量法和RMSProp的优点。它计算梯度的一阶矩（均值）和二阶矩（未中心化方差）的指数加权平均，自动调整每个参数的学习率，收敛快、稳定性好，广泛用于深度学习模型训练。
- RMSprop：RMSprop（Root Mean Square Propagation）是一种自适应学习率优化算法，通过除以梯度平方的指数加权平均来调整学习率，有效缓解梯度消失或爆炸问题。它使学习率在平坦区域增大、在陡峭区域减小，提升训练稳定性，特别适用于非稳态目标函数，是深度学习中常用的优化方法之一。

优化器利用反向传播算法计算损失对每个权重的梯度（即变化率）。
根据梯度方向和大小，优化器执行更新规则： $W_{\text{new}} = W_{\text{old}} - \eta \cdot \frac{\partial \text{Loss}}{\partial W}$ ，其中 $\eta$ 是学习率，控制更新步长。

整个流程形成一个闭环：

输入 → 前向传播 → 预测 → 损失计算 → 反向传播 → 权重更新 → 再次输入

神经网络通过不断对比预测与真实值之间的差距（损失），并据此调整内部参数（权重），从而逐步提升其预测准确性。