当前位置: 首页 > news >正文

深度学习Adam优化器核心概念全解析:参数,梯度,一阶动量,二阶动量

目录

一、参数(weights)

二、梯度(gradients)

三、一阶动量(m,Momentum)

四、二阶动量(v,Variance)

五、它们如何在优化中协作(以 Adam 为例)


Adam优化器是深度学习框架Pytorch中常用的一个优化器,其主要包含了参数,梯度,一阶动量,二阶动量这四个部分。


一、参数(weights

  • 是什么: 模型中需要学习的核心数值,比如神经网络层的权重矩阵、偏置项等。

  • 作用: 决定模型的行为。训练的目标就是不断更新这些参数,让模型输出更接近目标值。

  • 例子:

    W = torch.nn.Linear(512, 512).weight
    

    这就是一个权重矩阵(参数)。


二、梯度(gradients

  • 是什么: 参数对损失函数的偏导数,表示“如果我改动这个参数,损失会往哪个方向变”。

  • 作用: 告诉优化器如何调整参数以减小损失。

  • 生成方式: 通过反向传播(backpropagation)自动计算。

简单理解:
梯度是“路标”——告诉优化器应该往哪个方向走(减小损失)。

例子:

loss.backward()
print(W.grad)  # 这里的grad就是梯度

三、一阶动量(m,Momentum)

  • 是什么: 梯度的“指数滑动平均”(Exponential Moving Average)。

  • 作用: 平滑梯度更新,让参数更新方向更稳定,不会抖动。

  • 公式:

    其中 ( g_t ) 是当前梯度,(\beta_1) 通常取 0.9。

直观理解:
想象优化器是一辆车,梯度是“当前推力”,而一阶动量是“惯性”。
你不希望车每一步都完全按梯度走,而是沿着长期平均方向继续前进。


四、二阶动量(v,Variance)

  • 是什么: 梯度平方的指数滑动平均,衡量梯度的“变化幅度”。

  • 作用: 控制学习率的自适应调整,让更新在不同维度上自动放缓或加速。

  • 公式:

    其中 (\beta_2) 通常取 0.999。

直观理解:
v 表示“梯度震荡的能量”。
如果某个参数的梯度变化太剧烈,优化器会自动降低它的学习率,避免发散。


五、它们如何在优化中协作(以 Adam 为例)

Adam 优化器结合了一阶和二阶动量,更新公式如下:

  • (\theta_t):模型参数(weights)

  • (m_t):一阶动量(平滑的方向)

  • (v_t):二阶动量(平滑的幅度)

  • (\eta):学习率

这意味着 Adam 更新时不仅考虑了当前梯度,还考虑了历史趋势(m)和不确定性(v)。

http://www.dtcms.com/a/568920.html

相关文章:

  • 网站模板哪里下载网站设计合同附件
  • 学习Linux——网络——网卡
  • 《原神》运行卡顿解决方案:游戏运行库合集一键安装指南
  • Java + Spring Boot + Redis技术栈,在实际使用缓存时遇到 缓存击穿、缓存穿透、缓存雪崩
  • Elasticsearch安装使用
  • 太原网站建设斯飞网络服务器wordpress
  • 知识图谱与黑盒大语言模型:生物医学研究的新突破
  • 不小心在idea中点了add 到版本控制 怎么样恢复?
  • 建网站空间的详细说明金华市有网站建设最低价
  • 服务器bmc功能
  • Linux Watchdog机制深度分析与实践指南
  • 在amazon linux 2023上面源码手动安装tesseract5.5.1
  • Linux---序列化与反序列化
  • 1.6.课设实验-数据结构-栈、队列-银行叫号系统2.0
  • 在amazon linux 2023上面通过Fedora 36软件仓库源安装tesseract5
  • seo网站做推广公司公司网站哪里好
  • 动态资源加载:不用Selenium,如何高效抓取Ajax和SPA网站?
  • 7.【NXP 号令者RT1052】开发——实战-串口通信
  • CANoe学习(二)使用CANdb++制作dbc
  • Node.js Buffer:深入理解与高效使用
  • Prompt Gen Desktop 管理和迭代你的 Prompt!
  • Prompt Composition with LangChain’s PipelinePromptTemplate
  • 【HarmonyOS NEXT】常见的性能优化
  • [Ethernet in CANoe]2--如何在CANoe中去仿真CP版本的SOME/IP通信
  • 优先队列(堆)
  • 基于 TCP 线程池服务器封装 HTTP 服务器:从协议解析到适配落地
  • xargs
  • 据库事务是数据库管理系统 ACID 四大特性
  • 宜昌市住房和城乡建设局网站wordpress后台慢
  • SSM基于HTML5的流浪动物领养平台yww0b(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。