深度学习面试题:请介绍梯度优化的各种算法
梯度优化是机器学习和深度学习的核心,其目标是找到一组模型参数,使得损失函数的值最小化。多年来,研究人员提出了多种优化算法来改进传统的梯度下降,使其更快、更稳定地收敛到(局部)最优解。
我将从最基础的算法开始,逐步深入到现代深度学习中常用的高级优化器。
1. 基础算法:梯度下降
这是所有优化算法的基石。其核心思想是沿着损失函数梯度(最陡峭)的反方向更新参数,从而逐步降低损失值。
-
批量梯度下降
-
公式: $\theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta J(\theta)$
-
特点: 使用整个训练集计算梯度。每一步更新都非常准确,朝向真正的全局梯度方向。
-
缺点: 计算极其缓慢,无法处理超出内存容量的大型数据集。
-
-
随机梯度下降