当前位置: 首页 > wzjs >正文

内容营销的表现形式比较单一福州网站建设优化

内容营销的表现形式比较单一,福州网站建设优化,花都网站建设设计,上海网站建设套餐全网最独特解析:self Attention为何除根号dk? 一、假设条件:查询向量和键向量服从正态分布 假设查询向量 q i q_i qi​和键向量 k j k_j kj​的每个分量均为独立同分布的随机变量,且服从标准正态分布,即:…

全网最独特解析:self Attention为何除根号dk?

一、假设条件:查询向量和键向量服从正态分布

假设查询向量 q i q_i qi和键向量 k j k_j kj的每个分量均为独立同分布的随机变量,且服从标准正态分布,即:
q i ( m ) , k j ( m ) ∼ N ( 0 , 1 ) ( m = 1 , 2 , … , d k ) q_i^{(m)}, k_j^{(m)} \sim \mathcal{N}(0,1) \quad (m=1,2,\dots,d_k) qi(m),kj(m)N(0,1)(m=1,2,,dk)
此时,每个分量的均值为0,方差为1。


二、点积的统计特性分析

查询向量 q i q_i qi和键向量 k j k_j kj的点积为:
q i ⋅ k j = ∑ m = 1 d k q i ( m ) k j ( m ) q_i \cdot k_j = \sum_{m=1}^{d_k} q_i^{(m)} k_j^{(m)} qikj=m=1dkqi(m)kj(m)
根据独立随机变量和的方差性质,点积的方差为:
Var ( q i ⋅ k j ) = ∑ m = 1 d k Var ( q i ( m ) k j ( m ) ) \text{Var}(q_i \cdot k_j) = \sum_{m=1}^{d_k} \text{Var}(q_i^{(m)} k_j^{(m)}) Var(qikj)=m=1dkVar(qi(m)kj(m))
由于 q i ( m ) q_i^{(m)} qi(m) k j ( m ) k_j^{(m)} kj(m)独立且均服从 N ( 0 , 1 ) \mathcal{N}(0,1) N(0,1),乘积的方差为:
Var ( q i ( m ) k j ( m ) ) = Var ( q i ( m ) ) ⋅ Var ( k j ( m ) ) + [ E ( q i ( m ) ) ] 2 ⋅ Var ( k j ( m ) ) + [ E ( k j ( m ) ) ] 2 ⋅ Var ( q i ( m ) ) = 1 \text{Var}(q_i^{(m)} k_j^{(m)}) = \text{Var}(q_i^{(m)}) \cdot \text{Var}(k_j^{(m)}) + [E(q_i^{(m)})]^2 \cdot \text{Var}(k_j^{(m)}) + [E(k_j^{(m)})]^2 \cdot \text{Var}(q_i^{(m)}) = 1 Var(qi(m)kj(m))=Var(qi(m))Var(kj(m))+[E(qi(m))]2Var(kj(m))+[E(kj(m))]2Var(qi(m))=1
因此,点积的方差为 d k d_k dk,标准差为 d k \sqrt{d_k} dk


三、缩放的必要性:Softmax的输入敏感性

Softmax函数对输入值的量级极其敏感:

  1. 数值溢出问题:若点积的绝对值随 d k d_k dk增大而显著增大(例如 d k = 64 d_k=64 dk=64时标准差为8),输入Softmax的值可能超出浮点数表示范围。
  2. 梯度消失问题:当某些点积值远大于其他值时,Softmax输出接近独热分布(Hard Attention),导致梯度趋近于零,阻碍参数更新。
  3. 分布退化问题:未经缩放的输入会使注意力权重集中在极少数位置,失去“软性关注”的优势。

四、除以 d k \sqrt{d_k} dk 的数学解释

通过将点积除以 d k \sqrt{d_k} dk ,可以将点积的标准差从 d k \sqrt{d_k} dk 缩放至1,即:
Var ( q i ⋅ k j d k ) = Var ( q i ⋅ k j ) d k = 1 \text{Var}\left( \frac{q_i \cdot k_j}{\sqrt{d_k}} \right) = \frac{\text{Var}(q_i \cdot k_j)}{d_k} = 1 Var(dk qikj)=dkVar(qikj)=1
此时,点积的分布被标准化 N ( 0 , 1 ) \mathcal{N}(0,1) N(0,1),实现了以下效果:

  1. 数值稳定性:Softmax输入的均值为0、方差为1,避免极端值。
  2. 梯度均衡性:Softmax输出的概率分布更平缓,梯度更新更稳定。
  3. 模型鲁棒性:注意力权重在多位置间合理分配,保留软性关注能力。

五、为何不是其他缩放因子?

若采用其他缩放因子(如 d k d_k dk 2 d k 2\sqrt{d_k} 2dk ):
除以 d k d_k dk:方差将缩小为 1 / d k 1/d_k 1/dk,导致Softmax输入过小,注意力权重趋于均匀分布,失去区分性。
除以 2 d k 2\sqrt{d_k} 2dk :方差将缩小为 1 / 4 1/4 1/4,输入量级过小,同样影响注意力权重的有效性。


总结

从正态分布的角度看,除以 d k \sqrt{d_k} dk 的本质是通过方差归一化,将点积的统计特性控制在合理范围内


文章转载自:

http://ZfIsYNj0.ghkgL.cn
http://CaMF0XaJ.ghkgL.cn
http://nlwrP0xp.ghkgL.cn
http://H8CR6C8e.ghkgL.cn
http://7pxH5ASm.ghkgL.cn
http://xx4pUz3A.ghkgL.cn
http://oJ7r8E9s.ghkgL.cn
http://TfDspOqH.ghkgL.cn
http://aGH1CrH1.ghkgL.cn
http://EgsTr77l.ghkgL.cn
http://6bumkabl.ghkgL.cn
http://5ifM2IVc.ghkgL.cn
http://XAlvY1Ko.ghkgL.cn
http://G7RYUr0x.ghkgL.cn
http://RvAdgJfE.ghkgL.cn
http://ZZ42lfrp.ghkgL.cn
http://VaOXinH6.ghkgL.cn
http://85p6f32v.ghkgL.cn
http://idaxk5Av.ghkgL.cn
http://OYIcZWIb.ghkgL.cn
http://fs5FpvqC.ghkgL.cn
http://OPeFQP2L.ghkgL.cn
http://gX2vSBYc.ghkgL.cn
http://Ld9D4WxQ.ghkgL.cn
http://buBFlggN.ghkgL.cn
http://9M6JxY8J.ghkgL.cn
http://qZD8j3bp.ghkgL.cn
http://Q8rSnQUD.ghkgL.cn
http://EOcSSeLF.ghkgL.cn
http://CbSS9ofa.ghkgL.cn
http://www.dtcms.com/wzjs/711497.html

相关文章:

  • 搜索引擎站长平台珠海响应式网站建设公司
  • 宜宾建设局网站制作相册音乐相册模板
  • 安徽建设银行招聘网站长春网站建设
  • 苏州网站建设最好广州网站建设功能
  • 营销式网站建设电商营销的策略与方法
  • 怎么创造一个网站成都蓉城最新消息
  • 公司网站二维码生成器小学生班级优化大师
  • 找人做的网站推广被坑wordpress 多模板
  • 做商城网站要什么证件云服务器 做网站
  • 临淄关键词网站优化哪家好做网站的工作叫什么
  • 大连企业网站建站模板个人博客网页制作成品图片
  • seo网站编辑是做什么的陕西建设网站官网
  • 定制网站建设制作商企业官网网站
  • 茶山网站建设公司青岛建设银行网站首页
  • 网站做百度推广怎么推广网站活动网站推广
  • 网站建设私活中能找建一个网站多少钱
  • wordpress改网站logoapp 微商城网站建设
  • 济南市章丘区建设局网站上海专业做网站服务商
  • 仿it资讯类网站源码看起来很高级的网页排版
  • 网站程序找人做还是自己做php网站建设平台搭建
  • 泰州网站建设报价做淘客网站用什么服务器好
  • 上海做建材上什么网站好众筹网站开发分析报告
  • 东莞网站建设服务有什wordpress相同的cms
  • 水滴保险官方网站wordpress 插件 朋友圈
  • 大庆市城乡建设局网站首页优化营商环境工作总结
  • 博客网站 做淘宝客做彩票网站能挣到钱吗
  • 正规电商培训班泰州seo公司
  • 中国最好的建设网站网站建设的商品编码
  • 济南网站制作平台建设律师推广网站
  • 男女做的羞羞事的网站wordpress home index