当前位置: 首页 > news >正文

大模型前世今生(十四):保持训练稳定性

Hessian 矩阵是观察性的,而非指令性的。它不控制或调整优化过程,它告诉你损失函数是如何围绕当前权重形成的,但不会主动干预。

所以,假设 Hessian 矩阵显示“哦,这部分损失函数非常陡峭,或者曲率是负的”,会发生什么?

1. 标准梯度下降无法明确地识别它

梯度下降只使用一阶导数(梯度),它只是沿着感觉上的坡度向下移动一步。如果坡度非常陡峭(Hessian 矩阵的特征值很大),则步骤可能会超出预期。如果斜率平坦(特征值较小),则进展缓慢。

梯度下降会持续进行,忽略 Hessian 矩阵;Hessian 矩阵仅用于诊断地形。

2. 高级优化器会隐式地使用 Hessian 矩阵信息

某些优化器(例如牛顿法)会考虑 Hessian 矩阵,逆 Hessian 矩阵会沿曲率方向重新调整梯度。在陡峭方向上,步长较小;在平坦方向上,步长较大。

 

\mathbf{w}_{t+1} = \mathbf{w}t - H^{-1} \nabla{\mathbf{w}} L(\mathbf{w}_t)

但在像 Transformer 这样的大型模型中,计算完整的 Hessian 矩阵是不可能的,因为有数十亿个参数。因此,我们依赖一阶方法(Adam、SGD),并让随机噪声加上学习率策略自然地引导权重趋向平坦稳定的盆地。

3. 如果训练遇到困难该怎么办?

如果梯度下降步长表现不佳(损失停滞或发散),从业者可以采取间接干预措施,如:降低学习率(在陡峭方向上减小步长),应用梯度裁剪(避免在曲率较大的方向上出现过冲),添加正则化或归一化(平滑地形),更改批量大小(修改随机噪声,有助于避开尖锐的最小值)…

Hessian 矩阵会告诉你损失可能不稳定的原因,但“修复它”始终是通过调整优化器或训练设置来完成的,而不是 Hessian 矩阵本身。所以,Hessian 就像一面地形的镜子:它不会移动徒步者,但它能告诉你地面是滑的、陡的还是宽的。我们调整的是训练步伐来影响地形本身。

 

http://www.dtcms.com/a/483731.html

相关文章:

  • Python基础 -- Python生成器表达式 next函数与多值筛选实战
  • 珠海品牌型网站建设网页设计的发展
  • 背景全屏网站建筑网站设计大全
  • Zabbix 安装与配置
  • Java Socket编程深度解析:从网络基础到高性能通信架构的全景实践
  • 网站建设湖南岚鸿建设免费推广自己的网站
  • 网页设计元素湖南关键词优化推荐
  • 共形场拓扑序
  • Java线程知识(二)
  • 全国射箭协作区锦标赛
  • IFC 2x3 和IFC4_ADD2 和IFC 4.3 ADD2
  • 定制规划设计公司seo去哪学
  • 公司网站建设推广方案模板网站没有权重
  • 14-无监督学习:讲解无需标注数据的数据分析和模式发现方法
  • Spring Framework源码解析——ServletConfigAware
  • 微商城网站建设策划方案网站建设的市场规模
  • UDP 首部
  • 【Kubernetes】K8s 集群 RBAC 鉴权
  • 两个数组的dp问题
  • 有没有免费的网站服务器网站开发离线下载报表
  • 网站服务器ip地址怎么查世界500强企业排名
  • 万网租空间 网站网站优化改版
  • 网站推广公司渠道WordPress入门编辑器
  • 大连城市建设档案馆官方网站php 网站反盗链
  • 解锁 Python 多线程新纪元:深入体验 3.14 的 Free-Threading 功能
  • 【框架演进】Vue与React的跨越性变革:从Vue2到Vue3,从Class到Hooks
  • ASP.NET Core Blazor简介和快速入门(基础篇)
  • 找印度人做网站网站建设经费预算
  • 孝感网站建设公司学院 网站 两学一做
  • 网站建设费用5万入账企业注册号查询系统