NLP高频面试题(五十二)——深度学习优化器详解
在深度学习的训练过程中,各种基于梯度的优化器肩负着寻找损失函数最优解的重任。最基础的梯度下降法通过沿着损失函数负梯度方向迭代更新参数,实现对模型参数的优化;而随机梯度下降(SGD)则以更高的计算效率和内存利用率在大规模数据集上大放异彩,但也因更新噪声大、易陷入鞍点或局部最优而存在局限。为克服这些问题,Momentum、Adagrad、RMSProp、Adam 等优化器相继提出,分别通过动量项、参数自适应学习率或两者结合,有效提高了收敛速度与稳定性。最后,批量梯度下降(BGD)、随机梯度下降(SGD)和小批量梯度下降(Mini-Batch GD)在计算精度和效率之间各有取舍,成为不同场景下的常用方案。
梯度下降法的思想
基本概念
梯度下降法是一种一阶迭代优化算法,通过计算损失函数关于模型参数的梯度,并沿梯度的负方向更新参数,逐步逼近最小值点。在机器学习和深度学习中,常用的损失函数如均方误差或交叉熵均满足可微分条件,因而可应用梯度下降法来训练模型。
数学原理
设损失函数为