当前位置: 首页 > news >正文

Adam(Adaptive Moment Estimation)

Adam优化器的作用

Adam(Adaptive Moment Estimation)结合了一阶矩(动量)和二阶矩(自适应学习率)的优势,在深度学习优化中表现优异。

1. 一阶矩(动量)的作用

  • 稳定梯度方向:通过指数移动平均(EMA)累积历史梯度,平滑噪声,减少震荡。
  • 跳过鞍点/局部最小值:惯性效应帮助参数逃离平坦区域或局部极小值。

数学表达:
m t = β 1 ⋅ m t − 1 + ( 1 − β 1 ) ⋅ g t (一阶矩估计) m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t \quad \text{(一阶矩估计)} mt=β1mt1+(1β1)gt(一阶矩估计)

2. 二阶矩(自适应学习率)的作用

  • 稳定步长:通过梯度平方的EMA调整学习率,防止梯度爆炸或消失。
  • 防止振荡:大梯度时减小步长,小梯度时增大步长,使更新更平稳。

数学表达:
v t = β 2 ⋅ v t − 1 + ( 1 − β 2 ) ⋅ g t 2 (二阶矩估计) v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2 \quad \text{(二阶矩估计)} vt=β2vt1+(1β2)gt2(二阶矩估计)

3. Adam的完整数学公式

参数更新规则
θ t + 1 = θ t − η ⋅ m ^ t v ^ t + ϵ \theta_{t+1} = \theta_t - \eta \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} θt+1=θtηv^t +ϵm^t

其中:

  • m ^ t = m t 1 − β 1 t \hat{m}_t = \frac{m_t}{1 - \beta_1^t} m^t=1β1tmt (一阶矩偏差修正)
  • v ^ t = v t 1 − β 2 t \hat{v}_t = \frac{v_t}{1 - \beta_2^t} v^t=1β2tvt (二阶矩偏差修正)
  • η \eta η:学习率, ϵ \epsilon ϵ:小常数(通常 1 0 − 8 10^{-8} 108

超参数典型值

  • β 1 = 0.9 \beta_1 = 0.9 β1=0.9 (一阶矩衰减率)
  • β 2 = 0.999 \beta_2 = 0.999 β2=0.999 (二阶矩衰减率)

相关文章:

  • Python数据分析课程实验-2
  • 前端八股 5
  • Gen6D代码框架分析
  • Linux——线程(3)线程同步
  • Elsevier latex报错Paragraph ended before \@citex was complete.<to be read again>
  • Pinia: vue3状态管理
  • 【Android】四大组件
  • Mem0.ai研究团队开发的全新记忆架构系统“Mem0”正式发布
  • 2025年人工智能火爆技术总结
  • 【Linux网络】I/O多路转接技术 - epoll
  • epoll函数
  • 【Shell 脚本编程】详细指南:第四章 - 循环结构(for、while、until) 深度解析
  • 60常用控件_QSpinBox的使用
  • 排序算法——冒泡排序
  • C语言学习之动态内存的管理
  • 交我算使用保姆教程:在计算中心利用singularity容器训练深度学习模型
  • caffe适配cudnn9.6.0(ai修改代码踩坑)
  • synchronized与Lock深度对比
  • 随机森林实战:从原理到垃圾邮件分类
  • Windows下Python3脚本传到Linux下./example.py执行失败
  • 金科股份:因信披违规,公司及董事长、总裁、财务负责人等收到行政监管措施决定书
  • 夜读丨春天要去动物园
  • 湖北鄂州通报4所小学学生呕吐腹泻:供餐企业负责人被采取强制措施
  • 中央网信办:重点整治违规AI产品、利用AI制作发布谣言等突出问题
  • 澎湃回声|山东莱州、潍坊对“三无”拖拉机产销市场展开调查排查
  • 牛市早报|今年国内核电项目审批首次开闸,离境退税起退点下调