当前位置：首页 > news >正文

常见优化器总结（附原理、公式与优缺点）

news 2025/9/24 12:33:09

优化器（Optimizer）是深度学习模型训练的核心组件之一，它决定了如何根据损失函数对模型参数进行更新。本文将总结目前常见的优化器，包括 SGD、Momentum、Adagrad、RMSprop、Adam 等，并介绍其核心思想、数学公式及优缺点。

1. SGD（随机梯度下降）

核心思想：
每次迭代只使用一小批数据（mini-batch）来更新参数，计算速度快。

更新公式：
$\theta_{t+1} = \theta_t - \eta \cdot \nabla_{\theta}J(\theta)$

优点：

简单高效
占用内存少

缺点：

容易陷入局部最优
收敛慢，对学习率敏感

2. SGD + Momentum（动量法）

核心思想：
在 SGD 基础上引入“动量”思想，模拟惯性加速收敛，减少震荡。

更新公式：
$v_{t+1} = \gamma v_t + \eta \nabla_{\theta}J(\theta) \\ \theta_{t+1} = \theta_t - v_{t+1}$

其中 $\gamma$ 是动量因子，常取 0.9。

优点：

加快收敛速度
降低震荡

缺点：

参数调节（如 $\gamma$ ）较复杂

3. Adagrad

核心思想：
对每个参数采用自适应学习率，训练初期快、后期慢。

更新公式：
$G_t = G_{t-1} + \nabla_{\theta}J(\theta)^2 \\ \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{G_t + \epsilon}} \nabla_{\theta}J(\theta)$

优点：

自适应学习率
适合稀疏数据（如 NLP）

缺点：

学习率不断减小，容易提前停止学习

4. RMSprop

核心思想：
改进 Adagrad，对历史梯度平方进行指数加权平均，避免学习率过快减小。

更新公式：
$E[g^2]_t = \gamma E[g^2]_{t-1} + (1 - \gamma) \nabla_{\theta}J(\theta)^2 \\ \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{E[g^2]_t + \epsilon}} \nabla_{\theta}J(\theta)$

优点：

收敛快
能应对非平稳目标

缺点：

需要调节超参数（如 $\gamma$ ）

5. Adam（Adaptive Moment Estimation，自适应矩估计）

核心思想：
结合 Momentum 和 RMSprop，分别估计一阶与二阶矩。

更新公式：
$m_t = \beta_1 m_{t-1} + (1 - \beta_1)\nabla_{\theta}J(\theta) \\ v_t = \beta_2 v_{t-1} + (1 - \beta_2)(\nabla_{\theta}J(\theta))^2 \\ \hat{m}_t = \frac{m_t}{1 - \beta_1^t},\quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t} \\ \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t$

优点：

学习率自适应
收敛快，鲁棒性好
参数调节较少

缺点：

在某些任务中可能不如 SGD 泛化好

🧪 6. AdamW（带权重衰减的 Adam）

核心思想：
改进 Adam 正则化方式，直接对权重衰减，效果更稳定。

更新公式：
$\theta_{t+1} = \theta_t - \eta \left( \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} + \lambda \theta_t \right)$

优点：

提升 Adam 在 Transformer、BERT 中的性能
更合理的权重衰减方式

缺点：

训练速度略慢于 Adam

📈 对比总结表

优化器	学习率自适应	动量机制	收敛速度	参数调节	适用场景
SGD	✘	✘	慢	简单	通用基础
SGD+Momentum	✘	✔	中	中	收敛困难时可用
Adagrad	✔	✘	前快后慢	简单	稀疏数据（NLP）
RMSprop	✔	✘	快	需调 $\gamma$	非平稳目标
Adam	✔	✔	快	稳定	大多数深度模型
AdamW	✔	✔	快	稳定	Transformer/BERT