当前位置: 首页 > wzjs >正文

做网站商城前景怎么样软文推广方法

做网站商城前景怎么样,软文推广方法,wordpress官方中文版,济南网站制作平台背景 本文内容还是对之前关于面试题transformer的一个延伸,详细讲解一下softmax 面试常问系列(二)-神经网络参数初始化之自注意力机制-CSDN博客 Softmax函数的梯度特性与输入值的幅度密切相关,这是Transformer中自注意力机制需要缩放点积结果的关键原…

背景

本文内容还是对之前关于面试题transformer的一个延伸,详细讲解一下softmax

面试常问系列(二)-神经网络参数初始化之自注意力机制-CSDN博客

Softmax函数的梯度特性与输入值的幅度密切相关,这是Transformer中自注意力机制需要缩放点积结果的关键原因。以下从数学角度展开分析:

1. Softmax 函数回顾

给定输入向量 z = [z₁, z₂, ..., zₖ],Softmax 输出概率为:

\sigma(z)_i = \frac{e^{z_i}}{\sum_{j=1}^{k}e^{z_j}} =\frac{e^{z_i}}{S},S=\sum_{j=1}^{k}e^{z_j}                        

其中 S 是归一化因子。

2. 梯度计算目标

计算 Softmax 对输入 z 的梯度,即 \frac{\delta \sigma_i}{\delta z_j}对所有 i,j∈{1,…,k}。

3. 梯度推导

根据链式法则,对 σi​ 关于 zj​ 求导:

\frac{\delta \sigma_i}{\delta z_j} = \left\{\begin{matrix} &\sigma_i(1-\sigma_j)) &if &i=j, \\ & -\sigma_i\sigma_j &if &i\neq j, \end{matrix}\right.

具体推到过程就不展示了,感兴趣的有需要的可以评论下。因为本次重点不是通用的softmax分析,而是偏实战分析。

4. 与交叉熵损失结合的梯度

在实际应用中,Softmax 通常与交叉熵损失L = \sum_{i=1}^{n}y_i*log\sigma_i 结合使用。此时梯度计算更简单:

\frac{\partial L }{\partial z_j} = \sigma(z_j)-y_j

其中 y_j是真实标签的 one-hot 编码。

5. 推导

  1. 交叉熵损失对 ​\sigma_i 的梯度:

\frac{\partial L }{\partial\sigma_i} = -\frac{y_i}{\sigma_i}

    2. 通过链式法则:

\frac{\partial L }{\partial z_j} =\sum_{i} \frac{\partial L }{\partial \sigma_i}\frac{\partial \sigma_i }{\partial z_j}=\sum_{i} -\frac{y_i }{\sigma_i}\frac{\partial \sigma_i }{\partial z_j}

    3. 代入在上面求解出的\frac{\delta \sigma_i}{\delta z_j}

  • i = j时,\frac{\partial L }{\partial z_j} =-\frac{y_i }{\sigma_j}*\sigma_j(1-\sigma_j)=-y_i*(1-\sigma_j)
  • i \neq j时,\frac{\partial L }{\partial z_j} =\sum_{i\neq j}-\frac{y_i }{\sigma_j}*(-\sigma_i\sigma_j)=\sigma_j*\sum_{i\neq j}{y_i}

    4.合并上述结果

\frac{\partial L }{\partial z_j} =-y_j*(1-\sigma_j) + \sigma_j*(1-y_j)=\sigma_j-y_j

6. 梯度消失问题

  • 极端输入值:若z_k远大于其他z_i,则\sigma (z_k) \approx 1,其他\sigma (z_i) \approx 0。此时:
    • z_k的梯度:-y_k*(1-\sigma_{z_k}) \approx 0(若yk​=1,梯度接近0)。
    • 对其他zi​的梯度:\sigma (z_i) \approx 0, \sigma_j*\sum_{i\neq j}{y_i} \approx 0,梯度趋近于0。
  • 后果:梯度消失导致参数更新困难,模型难以训练。

7. 缩放的作用

在Transformer中,点积结果除以dk​​后:

  • 输入值范围受限:缩放后z_i的方差为1,避免极端值。
  • 梯度稳定性提升\sigma (z_i)分布更均匀,-y_k*(1-\sigma_{z_k})\sigma (z_i)不会趋近于0,梯度保持有效。

5. 直观示例

  • 未缩放:若dk​=512,点积标准差结果可能达±22,Softmax输出接近0或1,梯度消失。
  • 缩放后:点积结果范围约±5,σ(zi​)分布平缓,梯度稳定。
  • 这个示例在最开始的跳转链接有详细解释,可以参考。

总结

Softmax的梯度对输入值敏感,过大输入会导致梯度消失。Transformer通过除以dk​​控制点积方差,确保Softmax输入值合理,从而保持梯度稳定,提升训练效率。这一设计是深度学习中处理高维数据时的重要技巧。


文章转载自:

http://jnEQvhaW.qhtLq.cn
http://ybnP1h6s.qhtLq.cn
http://m1nxKDxn.qhtLq.cn
http://N672WYwC.qhtLq.cn
http://nGn5IzHv.qhtLq.cn
http://3uAt4VzO.qhtLq.cn
http://B6ENy6MY.qhtLq.cn
http://6qFsK7GR.qhtLq.cn
http://zRHnJLu7.qhtLq.cn
http://In1IrbrD.qhtLq.cn
http://PXh5fyTu.qhtLq.cn
http://YYZGbyIX.qhtLq.cn
http://6Yct4E6U.qhtLq.cn
http://nIAsOjDb.qhtLq.cn
http://SQmo5a3T.qhtLq.cn
http://FUtGVHoX.qhtLq.cn
http://llQAgUhM.qhtLq.cn
http://D4VqNZPK.qhtLq.cn
http://wYsAUG3u.qhtLq.cn
http://LzqyKmKM.qhtLq.cn
http://FWXYBzU7.qhtLq.cn
http://otrGcwtJ.qhtLq.cn
http://RuidHLjW.qhtLq.cn
http://vRnR6InT.qhtLq.cn
http://1uYxC09d.qhtLq.cn
http://03ca8bNJ.qhtLq.cn
http://dYr8G1s5.qhtLq.cn
http://wbpSnzaa.qhtLq.cn
http://JMQlccn9.qhtLq.cn
http://5YHjX3vo.qhtLq.cn
http://www.dtcms.com/wzjs/696664.html

相关文章:

  • 网站建站外包公司好听的公司名称
  • 手机全部网站那个网站可以做logo
  • 网站后台乱码怎么办wordpress更新很慢
  • 公司网站 seo龙岩城乡建设局网站
  • 企业自己怎么制作网站首页嘉兴外贸网站建设
  • 平顶山网站建设服务公司承包活应该上什么平台
  • 怎样建设网络游戏网站网站备案无前置审批文件
  • 分类信息网站怎么做流量百度推广电话
  • 建立一个团购网站需要多少钱免费主题大全软件下载
  • 青岛高创网站建设winserverfrp可以做网站吗
  • 平湖手机网站建设一些大型网站的服务器需要租用多大的带宽
  • 公司网站开发款记什么科目网站开发需要哪些条件
  • 烟台网站制作维护电工学高等教育出版社久久建筑网
  • 寻找在山西运城专业做网站推广的廊坊排名推广
  • 网站上怎么做动画广告视频wordpress 顶部图片
  • seo怎样新建网站买房子怎么找房源
  • 公司做网站怎么赚钱吗营业执照查询系统
  • 深圳住房和建设局网站故障深圳市水榭花都房地产公司
  • 戴尔的网站建设目标商丘网红排行榜
  • 网站建设前台后台网页制作代码模板
  • 做网站的分辨率多少做一个网站花费多少钱
  • 北京正邦网站建设网站开发预算报表
  • 四川网站建设 四川冠辰科技建设银行不良资产处置网站
  • 福建建设培训中心网站建设好的网站怎么分享
  • 购物网站哪个质量好app下载软件电脑版
  • 网站推广策略和营销策略手机wap文字游戏枭雄
  • 网站推广方法是什么wordpress 云数据库
  • 南通wap网站建设网站左侧分类导航菜单
  • 个人做网站要备案吗旅行社服务网点能否做网站
  • 网站如何验证登陆状态电子商务网站前台建设