当前位置: 首页 > wzjs >正文

企业微信app下载安装官网电脑版郑州企业网站快速优化价格

企业微信app下载安装官网电脑版,郑州企业网站快速优化价格,网站关键词用热门的还是冷门,重庆网站建设快忻局部极小值与鞍点 一、局部极小值(Local Minima)1. 直观理解2. 数学定义3. 关键性质4. 举个栗子 二、鞍点(Saddle Point)1. 直观理解2. 数学定义3. 关键性质4. 举个栗子5. 为什么鞍点在神经网络中更常见? 三、局部极小…

局部极小值与鞍点

  • 一、局部极小值(Local Minima)
    • 1. 直观理解
    • 2. 数学定义
    • 3. 关键性质
    • 4. 举个栗子
  • 二、鞍点(Saddle Point)
    • 1. 直观理解
    • 2. 数学定义
    • 3. 关键性质
    • 4. 举个栗子
    • 5. 为什么鞍点在神经网络中更常见?
  • 三、局部极小值 vs 鞍点:关键区别
  • 四、如何判断一个临界点是哪种类型?
  • 五、实际应用中的问题
  • 六、为什么高维空间鞍点更多?
  • 七、如何直观感受鞍点?
    • 实验1:画一个鞍点函数
    • 实验2:简单神经网络中的鞍点
  • 八、总结

要理解模型优化必须先从最基础的局部极小值和鞍点开始,这两个概念是优化问题的核心难点,理解它们对后续学习优化算法非常重要。


一、局部极小值(Local Minima)

1. 直观理解

想象你在一片多山的区域徒步,突然发现周围有一个小坑,无论你往哪个方向走都会“上坡”——这个小坑就是一个局部极小值。在优化问题中,它对应损失函数的一个“低谷”,参数在这个点时,无论往哪个方向调整,损失都可能变大。

2. 数学定义

对于函数 L ( θ ) L(\theta) L(θ),若存在一个邻域 ∣ θ − θ ∗ ∥ < ϵ | \theta - \theta^* \| < \epsilon θθ<ϵ,使得在该邻域内:
L ( θ ∗ ) ≤ L ( θ ) 对所有  θ 成立 , L(\theta^*) \leq L(\theta) \quad \text{对所有} \ \theta \ \text{成立}, L(θ)L(θ)对所有 θ 成立,
θ ∗ \theta^* θ 是一个局部极小值

3. 关键性质

  • 梯度为零:在局部极小值点,梯度 n a b l a L ( θ ∗ ) = 0 nabla L(\theta^*) = 0 nablaL(θ)=0
  • Hessian矩阵正定:二阶导数矩阵(Hessian矩阵 H H H)在该点的所有特征值均为正,即 H ≻ 0 H \succ 0 H0。这说明曲率在所有方向都是“向上凹”的。

4. 举个栗子

假设损失函数是 L ( θ ) = θ 2 L(\theta) = \theta^2 L(θ)=θ2,在 θ = 0 \theta = 0 θ=0 处是一个局部极小值(也是全局极小值)。梯度 ∇ L = 2 θ \nabla L = 2\theta L=2θ,在 θ = 0 \theta=0 θ=0 处梯度为零;Hessian H = 2 > 0 H = 2 > 0 H=2>0,正定。


二、鞍点(Saddle Point)

1. 直观理解

鞍点得名于马鞍的形状。想象你坐在马鞍上:沿着马头方向(前后)是“下坡”,而沿着马背方向(左右)是“上坡”。鞍点是一个梯度为零的点,但某些方向是极小值,另一些方向是极大值。在深度学习中损失不是只在局部极小值的梯度是零,还有其他可能会让梯度是零的点,比如鞍点(saddle point)。鞍点其实就是梯度是零且区别于局部极小值和局部极大值(local maximum)的点。

2. 数学定义

对于函数 L ( θ ) L(\theta) L(θ),若梯度 ∇ L ( θ ∗ ) = 0 \nabla L(\theta^*) = 0 L(θ)=0,但Hessian矩阵 H H H 的特征值有正有负,则 θ ∗ \theta^* θ 是一个鞍点

3. 关键性质

  • 梯度为零:与局部极小值一样,鞍点的梯度也为零。
  • Hessian矩阵不定:Hessian矩阵既有正特征值(对应“下坡”方向),又有负特征值(对应“上坡”方向)。

4. 举个栗子

考虑二元函数 L ( x , y ) = x 2 − y 2 L(x, y) = x^2 - y^2 L(x,y)=x2y2,在 ( 0 , 0 ) (0,0) (0,0) 处是一个鞍点:

  • 梯度 ∇ L = ( 2 x , − 2 y ) \nabla L = (2x, -2y) L=(2x,2y),在 ( 0 , 0 ) (0,0) (0,0) 处为零。
  • Hessian矩阵 H = [ 2 0 0 − 2 ] H = \begin{bmatrix} 2 & 0 \\ 0 & -2 \end{bmatrix} H=[2002],特征值为 + 2 +2 +2 − 2 -2 2

5. 为什么鞍点在神经网络中更常见?

  • 维度诅咒:神经网络参数通常是高维的(百万甚至十亿级)。在低维空间中局部极小值更多,但在高维空间中,鞍点的数量会指数级增长。
  • 对称性:神经网络的结构对称性(如多个神经元初始化相同)会诱导鞍点。

三、局部极小值 vs 鞍点:关键区别

特征局部极小值鞍点
梯度 ∇ L = 0 \nabla L = 0 L=0 ∇ L = 0 \nabla L = 0 L=0
Hessian特征值全为正( H ≻ 0 H \succ 0 H0有正有负( H H H) 不定)
优化方向所有方向都是“上坡”某些方向“上坡”,某些“下坡”
逃离难度难(需要跳出局部区域)较易(沿负曲率方向下降即可)

在这里插入图片描述


四、如何判断一个临界点是哪种类型?

假设你已经找到了一个梯度为零的点 θ ∗ \theta^* θ,接下来需要分析Hessian矩阵:

  1. 计算Hessian矩阵 H H H:即二阶导数矩阵。
  2. 求特征值:计算 H H H 的所有特征值。
  3. 判断特征值符号
    • 全正 → 局部极小值
    • 全负 → 局部极大值
    • 有正有负 → 鞍点

五、实际应用中的问题

  • 计算Hessian矩阵在深度学习中非常昂贵(参数太多)。
  • 替代方案:使用随机扰动观察损失变化。例如,在 θ ∗ \theta^* θ 附近随机采样多个方向 d d d,计算 L ( θ ∗ + ϵ d ) L(\theta^* + \epsilon d) L(θ+ϵd)
    • 如果所有方向 L L L 都增大 → 局部极小值;
    • 如果某些方向 L L L 减小 → 鞍点。

六、为什么高维空间鞍点更多?

假设参数空间维度为 D D D,Hessian矩阵的特征值随机分布。当 D D D 很大时:

  • 所有特征值为正的概率是 2 − D 2^{-D} 2D(指数级下降);
  • 至少有一个正和一个负特征值的概率接近1。

因此,高维优化问题中,梯度为零的点几乎都是鞍点,而非局部极小值。这也是为什么深度学习优化中,鞍点比局部极小值更值得关注。


七、如何直观感受鞍点?

实验1:画一个鞍点函数

尝试画出 L ( x , y ) = x 2 − y 2 L(x, y) = x^2 - y^2 L(x,y)=x2y2 的3D图像,观察 ( 0 , 0 ) (0,0) (0,0) 处的形状。你会发现:

  • 沿x轴方向(正负)是“上坡”;
  • 沿y轴方向(正负)是“下坡”。

实验2:简单神经网络中的鞍点

构造一个单层线性网络 y = W x + b y = Wx + b y=Wx+b,损失函数为均方误差。尝试将权重初始化为全零,此时梯度为零,但Hessian矩阵可能不定(取决于数据),此时可能处于鞍点。


八、总结

  • 局部极小值 是“陷阱”,需要跳出局部区域;
  • 鞍点 是“伪陷阱”,可以通过特定方向逃离;
  • 在高维空间中,鞍点比局部极小值更常见,因此优化算法需要具备逃离鞍点的能力。

理解了这两个概念后,我们就可以进一步讨论如何设计优化算法来逃离鞍点,比如动量法、自适应学习率、二阶方法等。


文章转载自:

http://DX9bGMs7.bzpwh.cn
http://5bGmZere.bzpwh.cn
http://SJzsuxgE.bzpwh.cn
http://HdDhl8Ri.bzpwh.cn
http://zNNy63LH.bzpwh.cn
http://JW57OlYU.bzpwh.cn
http://gd0mtgXN.bzpwh.cn
http://zibIuihO.bzpwh.cn
http://cv0uJDOn.bzpwh.cn
http://5Wasdb07.bzpwh.cn
http://EmH0Djgv.bzpwh.cn
http://L9uffIgA.bzpwh.cn
http://VTPWr13W.bzpwh.cn
http://Wwpj6105.bzpwh.cn
http://u0qj93SU.bzpwh.cn
http://yHKeseVe.bzpwh.cn
http://Ja5cHfsc.bzpwh.cn
http://ZzWnyAOP.bzpwh.cn
http://x0rU5O8T.bzpwh.cn
http://JBLFV7AI.bzpwh.cn
http://5EvUR0TK.bzpwh.cn
http://3lfmgUCz.bzpwh.cn
http://4Pb7A8MT.bzpwh.cn
http://bOBxhLOl.bzpwh.cn
http://J1LuZQr5.bzpwh.cn
http://awyDBGys.bzpwh.cn
http://IYJ2sX6L.bzpwh.cn
http://0jS5PzwC.bzpwh.cn
http://kPXrlMMC.bzpwh.cn
http://VoN3KqZS.bzpwh.cn
http://www.dtcms.com/wzjs/718462.html

相关文章:

  • 网站子域名怎么设置网站策划方案 优帮云
  • 建网站哪家好北京兼容手机的网站
  • uo建设网站高端网站建设公司哪家服务态度好
  • 海珠商城网站建设小程序注册推广
  • 南通网站排名优化价格wordpress 大神
  • 湛江网站wordpress禁止前台登录
  • 欧美风格企业网站伊通县建设局网站
  • 网站模板抄袭网站右侧虚代码
  • 上海网站制作价格香洲区建设局网站
  • google网站地图格式做网站管理员开会怎么演讲
  • 上海信息科技有限公司软件网站开发iis搭建本地网站
  • 怎么快速做网站排名Wordpress收费下载会员
  • 龙泉驿区建设局网站wordpress app弊端
  • 做网站需要空间跟域名吗产品详情页怎么排版设计
  • 网站开发的目的及意义微网站与app的区别
  • 成都公司网站开发招聘网站怎么做seo
  • 企业建站划算吗黑龙江最新消息今天
  • 河北建网站网站如何快速免费推广
  • 如何推广网站运营小米手机做网站服务器吗
  • 哪些有名网站是用php做的外卖网站怎么做
  • 长沙网站优化公司餐饮品牌设计网站
  • 绍兴做公司网站的公司西宁网站建设哪家公司好
  • 手机特效视频制作软件免费深圳好客站seo
  • 兰州企业网站建设常用的网页制作工具有什么
  • 金融中介做网站需要浙江大数据网站建设问答知识
  • 动态ip网站如何备案重庆公路工程建设信息管理系统
  • 厦门网站建设找维品邢台信息港人力资源
  • 三网合一网站朋友圈网站文章怎么做
  • 做网站需要会哪些编程语言做游戏数据分析的网站
  • 网站大数据怎么做的核动力网站建设