当前位置：首页 > news >正文

Adam（Adaptive Moment Estimation）

news 2025/11/5 3:13:29

Adam优化器的作用

Adam（Adaptive Moment Estimation）结合了一阶矩（动量）和二阶矩（自适应学习率）的优势，在深度学习优化中表现优异。

1. 一阶矩（动量）的作用

稳定梯度方向：通过指数移动平均（EMA）累积历史梯度，平滑噪声，减少震荡。
跳过鞍点/局部最小值：惯性效应帮助参数逃离平坦区域或局部极小值。

数学表达：
$m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t \quad \text{(一阶矩估计)}$

2. 二阶矩（自适应学习率）的作用

稳定步长：通过梯度平方的EMA调整学习率，防止梯度爆炸或消失。
防止振荡：大梯度时减小步长，小梯度时增大步长，使更新更平稳。

数学表达：
$v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2 \quad \text{(二阶矩估计)}$

3. Adam的完整数学公式

参数更新规则：
$\theta_{t+1} = \theta_t - \eta \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}$

其中：

$\hat{m}_t = \frac{m_t}{1 - \beta_1^t}$ （一阶矩偏差修正）
$\hat{v}_t = \frac{v_t}{1 - \beta_2^t}$ （二阶矩偏差修正）
$\eta$ ：学习率， $\epsilon$ ：小常数（通常 $10^{-8}$ ）

超参数典型值

$\beta_1 = 0.9$ （一阶矩衰减率）
$\beta_2 = 0.999$ （二阶矩衰减率）

查看全文

http://www.dtcms.com/a/168002.html

Python数据分析课程实验-2

前端八股 5

Gen6D代码框架分析

Linux——线程（3）线程同步

Elsevier latex报错Paragraph ended before \@citex was complete.＜to be read again＞

Pinia: vue3状态管理

【Android】四大组件

Mem0.ai研究团队开发的全新记忆架构系统“Mem0”正式发布

2025年人工智能火爆技术总结

【Linux网络】I/O多路转接技术 - epoll

epoll函数

【Shell 脚本编程】详细指南：第四章 - 循环结构(for、while、until) 深度解析

60常用控件_QSpinBox的使用

排序算法——冒泡排序

C语言学习之动态内存的管理

交我算使用保姆教程：在计算中心利用singularity容器训练深度学习模型

caffe适配cudnn9.6.0（ai修改代码踩坑）

synchronized与Lock深度对比

随机森林实战：从原理到垃圾邮件分类

Windows下Python3脚本传到Linux下./example.py执行失败

AdaBoost算法详解：原理、实现与应用指南

极简GIT使用

补4月30日

常见电源的解释说明

C#泛型集合深度解析（九）：掌握System.Collections.Generic的核心精髓

RTOS接口-Semaphores

ADG网络故障恢复演练

实现了一个基于寄存器操作STM32F103C8t6的工程，并实现对PA1，PA2接LED正极的点灯操作

如何提升个人的稳定性？

蓝桥杯比赛

Adam优化器的作用

1. 一阶矩（动量）的作用

2. 二阶矩（自适应学习率）的作用

3. Adam的完整数学公式

超参数典型值

相关文章：