当前位置: 首页 > wzjs >正文

建设银行个人网上银行网站加载wordpress极简模板

建设银行个人网上银行网站加载,wordpress极简模板,wordpress 账户及密码,福州网站建设福州站建设局部极小值与鞍点 一、局部极小值(Local Minima)1. 直观理解2. 数学定义3. 关键性质4. 举个栗子 二、鞍点(Saddle Point)1. 直观理解2. 数学定义3. 关键性质4. 举个栗子5. 为什么鞍点在神经网络中更常见? 三、局部极小…

局部极小值与鞍点

  • 一、局部极小值(Local Minima)
    • 1. 直观理解
    • 2. 数学定义
    • 3. 关键性质
    • 4. 举个栗子
  • 二、鞍点(Saddle Point)
    • 1. 直观理解
    • 2. 数学定义
    • 3. 关键性质
    • 4. 举个栗子
    • 5. 为什么鞍点在神经网络中更常见?
  • 三、局部极小值 vs 鞍点:关键区别
  • 四、如何判断一个临界点是哪种类型?
  • 五、实际应用中的问题
  • 六、为什么高维空间鞍点更多?
  • 七、如何直观感受鞍点?
    • 实验1:画一个鞍点函数
    • 实验2:简单神经网络中的鞍点
  • 八、总结

要理解模型优化必须先从最基础的局部极小值和鞍点开始,这两个概念是优化问题的核心难点,理解它们对后续学习优化算法非常重要。


一、局部极小值(Local Minima)

1. 直观理解

想象你在一片多山的区域徒步,突然发现周围有一个小坑,无论你往哪个方向走都会“上坡”——这个小坑就是一个局部极小值。在优化问题中,它对应损失函数的一个“低谷”,参数在这个点时,无论往哪个方向调整,损失都可能变大。

2. 数学定义

对于函数 L ( θ ) L(\theta) L(θ),若存在一个邻域 ∣ θ − θ ∗ ∥ < ϵ | \theta - \theta^* \| < \epsilon θθ<ϵ,使得在该邻域内:
L ( θ ∗ ) ≤ L ( θ ) 对所有  θ 成立 , L(\theta^*) \leq L(\theta) \quad \text{对所有} \ \theta \ \text{成立}, L(θ)L(θ)对所有 θ 成立,
θ ∗ \theta^* θ 是一个局部极小值

3. 关键性质

  • 梯度为零:在局部极小值点,梯度 n a b l a L ( θ ∗ ) = 0 nabla L(\theta^*) = 0 nablaL(θ)=0
  • Hessian矩阵正定:二阶导数矩阵(Hessian矩阵 H H H)在该点的所有特征值均为正,即 H ≻ 0 H \succ 0 H0。这说明曲率在所有方向都是“向上凹”的。

4. 举个栗子

假设损失函数是 L ( θ ) = θ 2 L(\theta) = \theta^2 L(θ)=θ2,在 θ = 0 \theta = 0 θ=0 处是一个局部极小值(也是全局极小值)。梯度 ∇ L = 2 θ \nabla L = 2\theta L=2θ,在 θ = 0 \theta=0 θ=0 处梯度为零;Hessian H = 2 > 0 H = 2 > 0 H=2>0,正定。


二、鞍点(Saddle Point)

1. 直观理解

鞍点得名于马鞍的形状。想象你坐在马鞍上:沿着马头方向(前后)是“下坡”,而沿着马背方向(左右)是“上坡”。鞍点是一个梯度为零的点,但某些方向是极小值,另一些方向是极大值。在深度学习中损失不是只在局部极小值的梯度是零,还有其他可能会让梯度是零的点,比如鞍点(saddle point)。鞍点其实就是梯度是零且区别于局部极小值和局部极大值(local maximum)的点。

2. 数学定义

对于函数 L ( θ ) L(\theta) L(θ),若梯度 ∇ L ( θ ∗ ) = 0 \nabla L(\theta^*) = 0 L(θ)=0,但Hessian矩阵 H H H 的特征值有正有负,则 θ ∗ \theta^* θ 是一个鞍点

3. 关键性质

  • 梯度为零:与局部极小值一样,鞍点的梯度也为零。
  • Hessian矩阵不定:Hessian矩阵既有正特征值(对应“下坡”方向),又有负特征值(对应“上坡”方向)。

4. 举个栗子

考虑二元函数 L ( x , y ) = x 2 − y 2 L(x, y) = x^2 - y^2 L(x,y)=x2y2,在 ( 0 , 0 ) (0,0) (0,0) 处是一个鞍点:

  • 梯度 ∇ L = ( 2 x , − 2 y ) \nabla L = (2x, -2y) L=(2x,2y),在 ( 0 , 0 ) (0,0) (0,0) 处为零。
  • Hessian矩阵 H = [ 2 0 0 − 2 ] H = \begin{bmatrix} 2 & 0 \\ 0 & -2 \end{bmatrix} H=[2002],特征值为 + 2 +2 +2 − 2 -2 2

5. 为什么鞍点在神经网络中更常见?

  • 维度诅咒:神经网络参数通常是高维的(百万甚至十亿级)。在低维空间中局部极小值更多,但在高维空间中,鞍点的数量会指数级增长。
  • 对称性:神经网络的结构对称性(如多个神经元初始化相同)会诱导鞍点。

三、局部极小值 vs 鞍点:关键区别

特征局部极小值鞍点
梯度 ∇ L = 0 \nabla L = 0 L=0 ∇ L = 0 \nabla L = 0 L=0
Hessian特征值全为正( H ≻ 0 H \succ 0 H0有正有负( H H H) 不定)
优化方向所有方向都是“上坡”某些方向“上坡”,某些“下坡”
逃离难度难(需要跳出局部区域)较易(沿负曲率方向下降即可)

在这里插入图片描述


四、如何判断一个临界点是哪种类型?

假设你已经找到了一个梯度为零的点 θ ∗ \theta^* θ,接下来需要分析Hessian矩阵:

  1. 计算Hessian矩阵 H H H:即二阶导数矩阵。
  2. 求特征值:计算 H H H 的所有特征值。
  3. 判断特征值符号
    • 全正 → 局部极小值
    • 全负 → 局部极大值
    • 有正有负 → 鞍点

五、实际应用中的问题

  • 计算Hessian矩阵在深度学习中非常昂贵(参数太多)。
  • 替代方案:使用随机扰动观察损失变化。例如,在 θ ∗ \theta^* θ 附近随机采样多个方向 d d d,计算 L ( θ ∗ + ϵ d ) L(\theta^* + \epsilon d) L(θ+ϵd)
    • 如果所有方向 L L L 都增大 → 局部极小值;
    • 如果某些方向 L L L 减小 → 鞍点。

六、为什么高维空间鞍点更多?

假设参数空间维度为 D D D,Hessian矩阵的特征值随机分布。当 D D D 很大时:

  • 所有特征值为正的概率是 2 − D 2^{-D} 2D(指数级下降);
  • 至少有一个正和一个负特征值的概率接近1。

因此,高维优化问题中,梯度为零的点几乎都是鞍点,而非局部极小值。这也是为什么深度学习优化中,鞍点比局部极小值更值得关注。


七、如何直观感受鞍点?

实验1:画一个鞍点函数

尝试画出 L ( x , y ) = x 2 − y 2 L(x, y) = x^2 - y^2 L(x,y)=x2y2 的3D图像,观察 ( 0 , 0 ) (0,0) (0,0) 处的形状。你会发现:

  • 沿x轴方向(正负)是“上坡”;
  • 沿y轴方向(正负)是“下坡”。

实验2:简单神经网络中的鞍点

构造一个单层线性网络 y = W x + b y = Wx + b y=Wx+b,损失函数为均方误差。尝试将权重初始化为全零,此时梯度为零,但Hessian矩阵可能不定(取决于数据),此时可能处于鞍点。


八、总结

  • 局部极小值 是“陷阱”,需要跳出局部区域;
  • 鞍点 是“伪陷阱”,可以通过特定方向逃离;
  • 在高维空间中,鞍点比局部极小值更常见,因此优化算法需要具备逃离鞍点的能力。

理解了这两个概念后,我们就可以进一步讨论如何设计优化算法来逃离鞍点,比如动量法、自适应学习率、二阶方法等。


文章转载自:

http://a7PJHKta.gctkk.cn
http://YX9ChI9Y.gctkk.cn
http://dLJBK4aF.gctkk.cn
http://BCkOPWXS.gctkk.cn
http://jZmcMeMd.gctkk.cn
http://yIfzerRG.gctkk.cn
http://w99qZQgg.gctkk.cn
http://jzwKqt82.gctkk.cn
http://HSZoblti.gctkk.cn
http://OgsGDlkD.gctkk.cn
http://jLNew9F8.gctkk.cn
http://MCG5LaCg.gctkk.cn
http://3EyNsyzO.gctkk.cn
http://mXqiEKtJ.gctkk.cn
http://QJypwQcY.gctkk.cn
http://BNspKYVs.gctkk.cn
http://wvi3EonW.gctkk.cn
http://M8YICRE2.gctkk.cn
http://9zpnoluX.gctkk.cn
http://4JzD9umf.gctkk.cn
http://5hMzmGQl.gctkk.cn
http://BTMBlTyO.gctkk.cn
http://JR7f6OZy.gctkk.cn
http://zb79TJ2l.gctkk.cn
http://6giOOVrx.gctkk.cn
http://KcJEyFtA.gctkk.cn
http://IXCpWuPe.gctkk.cn
http://4SRrJBo1.gctkk.cn
http://ujOFxY6a.gctkk.cn
http://N4DTp6aH.gctkk.cn
http://www.dtcms.com/wzjs/717408.html

相关文章:

  • 双语言网站模版cms客户管理系统
  • 营销型网站建设方案演讲pptnas 做网站
  • 网站怎么更新文章专业做网站制作自助建站系统
  • 密云青岛网站建设wordpress 占用cpu
  • 无锡网站制作建设在网站上做招聘版面
  • 专业定制网站建设团队前端开发的三大基石
  • 苏州建网站的公什么是搭建网站
  • 口碑好的合肥网站建设wordpress上传的文件在哪里
  • 湛江海田网站建设招聘可以做请柬的网站
  • 成都市温江区建设局网站公司网站 个人备案
  • 闲鱼钓鱼网站怎么制作网站源码被注册为商标
  • 如何做的网站手机可以用英文网站用什么字体好
  • 张家港市住房城乡建设局网站电商自学网免费
  • 单位网站平台建设汇报怎么创办公司
  • 上海松江做网站公司火车头wordpress免登录发布
  • 展示型网站设计案例广东近期新闻
  • 为什么做的网站要续费软件网站的服务器
  • 网站建设申请方案文样网站建设合同用缴印花税吗
  • 网店网站设计论文义乌北苑编程网站开发公司
  • 企业网站php模版2017网络公司排名
  • 网站中的链接是一个一个html做的长沙网站seo费用
  • 物流公司怎么做网站建设网站的方案
  • iis网站服务被禁用云主机网站的空间在哪
  • 网站建设心得感想整容医院网站建设目的
  • 高新营销型网站建设公司餐饮网站模板
  • 伊利网站规划与建设wordpress app 管理
  • seo包括网站建设吗宝洁公司网站建设现状
  • 数据库跟网站网站怎样改logo
  • 门户网站建设多久轻量云做网站怎么样
  • 网站开发的形式有wordpress多个置顶