当前位置：首页 > news >正文

机器学习之优化器

news 2025/9/30 19:01:05

优化器这个名字是 optimizer 这个单词的翻译，他是一个用来更新模型参数的函数，其核心法则是下面这个公式：

$\theta_{t}=\theta_{t-1}-\alpha\cdot g_t$

$\theta_t$ 是第 $t$ 轮训练时的参数， $\alpha$ 是学习率， $g_t$ 是 $t$ 轮训练时的梯度。

这就是随机梯度下降算法，简称 SGD。设置学习率是为了防止梯度下降过快，模型训练的目标就是让损失函数达到极小值。当梯度特别大时，参数更新的步幅也会特别大，导致出现震荡，永远到不了最小值处。模型训练就像盲人摸象，需要一点一点摸索前进，因此学习率一般设置为一个小于 1 的值。

$g_t=\nabla_{\theta}L(\theta_t)$ ，所谓梯度就是损失函数对参数 $\theta$ 的偏导数。导数有正有负，它揭示了函数的变化趋势，这个趋势不仅有方向，还有大小。在模型训练过程中，损失函数 $L$ 是模型参数 $\theta$ 的函数，因为在训练期间，输入是已知的，模型参数才是未知的变量，预测时刚好反过来。

不同的优化器核心结构都是一样的，它们的区别体现在对 $\alpha$ 和 $g_t$ 的修改上，事实上也只有这两个地方能动动手脚，核心还是梯度。

评价优化器好与不好的指标就是收敛速度和稳定性，所有围绕梯度下降公式的优化也都是针对这两点进行的。乱花渐欲迷人眼，只需盯住这两点。

Momentum

中文叫动量算法，其核心思想是对梯度做了一个指数加权平均。

$\begin{aligned} g_t &= \nabla_\theta L(\theta_t) \\ v_t &= \beta\cdot v_{t-1}+(1-\beta)\cdot g_t \\ \theta_t &= \theta_{t-1}-\alpha\cdot v_t \end{aligned}$

其实就是对梯度做了一个平滑，经过指数加权平均的梯度能下降的更平滑，防止异常梯度带来的振荡干扰。

RMSProp

全称 Root Mean Square Propagation，均方根传播算法。它调整的是学习率。

$\begin{aligned} g_t&=\nabla_\theta L(\theta_t) \\ v_t&=\beta\cdot v_{t-1}+(1-\beta)\cdot g^2_t \\ \theta_t&=\theta_{t-1}-\frac{\alpha}{\sqrt{v_t}+\epsilon}\cdot g_t \end{aligned}$

它在学习率上除以了一个 $\sqrt{v_t}$ ，而 $v_t$ 是梯度的平方的指数加权平均，分母中的 $\epsilon$ 是一个非常小的非零值，用来防止除零错误。取 $g_t^2$ 做指数加权平均是为了让 $v_t$ 始终为正，因为它的作用和 $\alpha$ 一样，只能修改梯度的大小，不能修改梯度的方向。

Adam

全称 Adaptive Moment Estimation，它同时修改了梯度和学习率。

$\begin{aligned} g_t&=\nabla_\theta L(\theta_t) \\ m_t&=\beta_1\cdot m_{t-1}+(1-\beta_1)\cdot g_t \\ v_t&=\beta_2\cdot v_{t-1}+(1-\beta_2)\cdot g_t^2 \\ \hat{m}_t&=\frac{m_t}{1-\beta_1^t} \\ \hat{v}_t&=\frac{v_t}{1-\beta_2^t} \\ \theta_t&=\theta_{t-1}-\frac{\alpha}{\sqrt{\hat{v}_t}+\epsilon}\cdot \hat{m}_t \end{aligned}$

Adam 基本上就是 Momentum 和 RMSProp 的结合，但是它在平滑后的梯度上又除了一个 $(1-\beta^t)$ ，随着训练次数的增加， $(1-\beta^t)$ 越来越接近 1， $\hat{m}_t$ 也就越来越接近 $m_t$ ， $v_t$ 也是同理，也就是说，它加快了刚开始时的训练速度。

Axon 中的那些优化器

Axon 中用到的优化器实际上并不在 Axon 库当中，而是在 Polaris 库中，可以点击这里查看，每个优化器都给出了论文链接。

adabelief

它也是一种自适应梯度优化器。

$\begin{aligned} g_t&=\nabla_\theta L(\theta_t) \\ m_t&=\beta_1\cdot m_{t-1}+(1-\beta_1)\cdot g_t \\ s_t&=\beta_2\cdot s_{t-1}+(1-\beta_2)\cdot (g_t-m_t)^2+\epsilon \\ \hat{m}_t&=\frac{m_t}{1-\beta_1^t} \\ \hat{s}_t&=\frac{s_t}{1-\beta_2^t} \\ \theta_t&=\theta_{t-1}-\frac{\alpha}{\sqrt{\hat{s}_t}+\epsilon}\cdot \hat{m}_t \end{aligned}$

它这里用来调整学习率的是 $s_t$ ，它是梯度与平滑后梯度之差的加权平均，这就是所谓的 Belief，当梯度变化不大时就大步走，当梯度变化很大时就小步走，比如梯度发生反转时就小步前进。 $\hat m_t$ 和 $\hat s_t$ 的作用和 adam 是一样的。

adagrad

也是一种自适应梯度下降算法，它修改的是学习率。

$\begin{aligned} g_t&=\nabla_\theta L(\theta_t) \\ s_t^i&=s_{t-1}^i+g_t^2 \\ \theta_t &= \theta_{t-1}-\frac{\alpha}{\sqrt{s_t^i}+\epsilon}g_t \end{aligned}$

它直接对每个参数累加梯度的平方，让后用这个平方和来修改学习率，随着训练的进行，平方和会不断累加，学习率持续下降，最后自动停止学习。

adam

即前面讲过的 Adam 优化器。

adamw

它是 Adam 优化器的优化版，最后的 “W” 表示的是 weight decay，权重衰减。它前面 $m_t$ 、 $v_t$ 等的计算和 Adam 是一样的，不同的地方在于最后的参数更新上。

$\theta_t=\theta_{t-1}-\frac{\alpha}{\sqrt{\hat{v}_t}+\epsilon}\hat{m}_t-\alpha\lambda\theta_t$

lamb

他也是一种已 Adam 为基础的优化器，针对大规模训练优化，防止大 batch 下梯度爆炸或消失。

$\begin{aligned} g_t&=\nabla_\theta L(\theta_t) \\ m_t&=\beta_1\cdot m_{t-1}+(1-\beta_1)\cdot g_t \\ v_t&=\beta_2\cdot v_{t-1}+(1-\beta_2)\cdot g_t^2 \\ \hat{m}_t&=\frac{m_t}{1-\beta_1^t} \\ \hat{v}_t&=\frac{v_t}{1-\beta_2^t} \\ r_t&=\frac{\eta}{\sqrt{\hat{v}_t}+\epsilon}\hat{m}_t \\ w_{normal}&=\|\theta_{t-1}\|_2 \\ g_{normal}&=\|r_t\|_2 \\ \theta_t&=\theta_{t-1}-\frac{w_{normal}}{g_{normal}+\epsilon}r_t \end{aligned}$