当前位置：首页 > news >正文

深度学习基础——神经网络优化算法

news 2025/10/16 16:39:37

1.1梯度下降法

梯度下降法：函数沿梯度方向有最大的变化率，优化目标损失函数时，根据负梯度方向进行。
$\theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta L(\theta_t)$
其中：
$\eta$ 为学习率，即每次更新的步长。
$\nabla_\theta$ 为梯度。

1.2改进的梯度下降法

以下是神经网络梯度下降法中几种经典改进方法的讲解，包括核心思想、公式及适用场景：

1. Momentum（动量法）

核心思想：模拟物理中的动量，在参数更新时引入历史梯度方向的加权平均，加速收敛并减少震荡。
公式：
$v_{t} = \beta v_{t-1} + (1-\beta) \nabla_\theta L(\theta_t) \\ \theta_{t+1} = \theta_t - \eta \cdot v_t$

特点：
- $\beta$ 为动量系数（通常取0.9），控制历史梯度的权重。
- 在梯度方向一致时加速更新，梯度方向变化时减少震荡。
适用场景：损失函数存在局部最小值或鞍点时效果显著。

2. AdaGrad（自适应梯度）

核心思想：为每个参数自适应调整学习率，历史梯度平方的累积值越大，学习率越小。
公式：
$G_t = G_{t-1} + (\nabla_\theta L(\theta_t))^2 \\ \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{G_t + \epsilon}} \cdot \nabla_\theta L(\theta_t)$

特点：
- 学习率随训练逐步衰减，适合稀疏数据（如自然语言处理）。
- 缺点：累积梯度平方可能导致学习率过早趋近于零。
适用场景：特征稀疏或需要自适应调整学习率的任务。

3. RMSProp（均方根传播）

核心思想：改进AdaGrad的累积方式，引入指数衰减平均，避免学习率过早下降。
公式：
$E_t = \beta E_{t-1} + (1-\beta)(\nabla_\theta L(\theta_t))^2 \\ \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{E_t + \epsilon}} \cdot \nabla_\theta L(\theta_t)$

特点：
- 通过衰减系数 $\beta$ （通常取0.9）控制历史梯度的影响。
- 解决了AdaGrad学习率单调下降的问题。
适用场景：非平稳目标函数或需要动态调整学习率的场景。

4. Adam（自适应矩估计）

核心思想：结合Momentum和RMSProp，利用梯度的一阶矩（均值）和二阶矩（方差）进行自适应调整。
公式：
$m_t = \beta_1 m_{t-1} + (1-\beta_1)\nabla_\theta L(\theta_t) \quad (\text{一阶矩}) \\ v_t = \beta_2 v_{t-1} + (1-\beta_2)(\nabla_\theta L(\theta_t))^2 \quad (\text{二阶矩}) \\ \hat{m}_t = \frac{m_t}{1-\beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1-\beta_2^t} \quad (\text{偏差修正}) \\ \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \cdot \hat{m}_t$

特点：
- 超参数 $\beta_1$ （通常0.9）和 $\beta_2$ （通常0.999）分别控制一阶和二阶矩的衰减。
- $\epsilon$ 为一个很小的常数。
- 偏差修正（Bias Correction）避免初始阶段估计偏差。
- 综合了动量加速和自适应学习率的优点。
适用场景：通用性强，尤其适合大数据集和复杂模型（如深度学习）。

总结与对比

方法	核心改进点	优点	缺点
Momentum	引入动量加速收敛	减少震荡，加速平坦区域收敛	对噪声敏感，需调参(\beta)
AdaGrad	自适应学习率（历史梯度平方）	适合稀疏数据	学习率过早下降，需手动设置(\epsilon)
RMSProp	指数衰减的梯度平方累积	解决AdaGrad学习率下降过快问题	超参数(\beta)需调节
Adam	一阶矩+二阶矩自适应	收敛快，适应性强，通用性好	内存占用略高，超参数较多

实际应用建议

默认选择：优先尝试Adam，因其在大多数任务中表现稳定。
特殊场景：稀疏数据可尝试AdaGrad或RMSProp；简单模型可用Momentum。

框架实现：

# PyTorch示例
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9)

查看全文

http://www.dtcms.com/a/200767.html

2022年下半年信息系统项目管理师——综合知识真题及答案（3）

Pichome 任意文件读取漏洞复现（CVE-2025-1743）

GPU状态监控

【C语言】大程序结构

mapbox-gl强制请求需要accessToken的问题

【工具】ncdu工具安装与使用指南：高效管理Linux磁盘空间

第八章 Java基础-字符串

线程池中任务队列满-如何把多余的任务存储到Redis中

LintCode第42题-最大子数组 II-使用前缀和优化 + 动态规划法

二叉树-模版题单

vue3个生命周期解析，及setup

贵州某建筑物挡墙自动化监测

vue Element-ui对图片上传和选用时的比例控制

对盒模型的理解

【css】【面试提问】css经典问题总结

使用 OpenCV 实现 ArUco 码识别与坐标轴绘制

LinuxYUM下载笔记

Web UI自动化测试之PO篇

outlook怎么用163邮箱

Ubuntu 远程桌面配置指南

Baklib Headless CMS 全面介绍

python打卡训练营打卡记录day30

Ubuntu20.04系统下使用交叉编译工具链（aarch、x86）交叉编译opencv4.5.0

FreeMarker

微机系统第二章-题目整理

嵌入式学习--江协51单片机day8

卷积神经网络基础（九）

Vue-样式绑定-class

liunx定时任务，centos定时任务

前端工程的相关管理 git、branch、build