当前位置: 首页 > news >正文

面试常问系列(一)-神经网络参数初始化-之自注意力机制为什么除以根号d而不是2*根号d或者3*根号d

首先先罗列几个参考文章,大家之后可以去看看,加深理解:

  • 面试常问系列(一)-神经网络参数初始化
  • 面试常问系列(一)-神经网络参数初始化之自注意力机制_注意力机制的参数初始化怎么做-CSDN博客
  • 面试常问系列(一)-神经网络参数初始化-之-softmax-CSDN博客

好,步入正题,我们假定各位读者看过上面👆几篇文章,已经了解了,为什么自注意力机制中要使用\sqrt{d} 进行缩放,然后我们进一步进行探究,为什么不是2\sqrt{d} 。

1、实例

1.点击没有缩放的时候,标准差的范围

  • 在【-\sqrt{d}\sqrt{d}】,有68.26%的值在这个区间,
  • 在【-2\sqrt{d},2\sqrt{d}】,有95.45%的值在这个区间,
  •  在【-3\sqrt{d},3\sqrt{d}】,有99.73%的值在这个区间,

参考:正态分布_百度百科

    2.点击缩放\sqrt{d}的时候,标准差的范围从\sqrt{d} 到 1

    • x在【-1,1】,e^x在【0.37,2.72】有68.26%的值在这个区间,
    • x在【-2,2】,e^x有【0.14,7.39】95.45%的值在这个区间,
    • x在【-3,3】,e^x有【0.05,20.09】99.73%的值在这个区间,

    3.点击缩放2\sqrt{d}的时候,标准差的范围从\sqrt{d} 到 0.5

    • x在【-0.5,0.5】,e^x在【0.61,1.65】有68.26%的值在这个区间,
    • x在【-1,1】,e^x有【0.37,2.72】95.45%的值在这个区间,
    • x在【-1.5,1.5】,e^x有【0.22,4.48】99.73%的值在这个区间,

    2、实例总结(重点)

    通过上述的不同缩放比例,大家应该可以比较清晰的发现,以一个标准差(68.26%)为例,随着缩放比例加大,变化范围减小,点击值被过度压缩,导致相对趋于均匀,从而无法很好的捕捉不同特征之间的差异,趋于大家都一样的感觉,区分度被缩小。大家感兴趣的可以实操看一下,softmax在不同缩放比例下的分布情况。

    3、梯度特性

    若除以2\sqrt{d},Softmax输入的方差过小,导致梯度值普遍偏低,模型训练效率显著下降。例如,在机器翻译任务中,使用2\sqrt{d}​的BLEU分数可能下降2-3个点。

    4、实验验证

    • 收敛速度对比

            在WMT14英德翻译任务中,使用\sqrt{d}的Transformer模型在5万步迭代后达到收敛,而使用2\sqrt{d}的模型需8万步迭代,且最终BLEU分数低1.5个点。

    • 数值稳定性测试

    通过模拟高维向量(d=1024)的点积计算,发现:        

                    a. \sqrt{d}缩放后,Softmax输入的最大值约为5,最小值约为-5,梯度值集中在[0.1,0.5];

                    b. 2\sqrt{d}缩放后,Softmax输入的最大值约为2.5,最小值约为-2.5,梯度值集中在[0.01,0.1],导致训练缓慢。

    • ​​​​​​​泛化能力分析
      • 在GLUE基准测试中,\sqrt{d}​缩放的模型在MNLI、QQP等任务上的准确率比2\sqrt{d}模型高1-2个百分点,表明其泛化能力更强。

    参考:

    https://zhuanlan.zhihu.com/p/32150751004

    相关文章:

  1. 双ISP(双互联网服务提供商)
  2. 为什么Transformer推理需要做KV缓存
  3. Kotlin-访问权限控制
  4. Python推导式进阶指南:优雅初始化序列的科学与艺术
  5. 高光谱相机赋能烟叶分选:精准、高效与智能化的新突破
  6. 信息时代的政治重构:网络空间与主权的未来
  7. wrod生成pdf。[特殊字符]改背景
  8. 【25软考网工】第五章(6)TCP和UDP协议、流量控制和拥塞控制、重点协议与端口
  9. 嵌入式开发学习日志Day14
  10. Elasticsearch:我们如何在全球范围内实现支付基础设施的现代化?
  11. 【BUG】‘DetDataSample‘ object has no attribute ‘_gt_sem_seg‘
  12. BRAFAR: Bidirectional Refactoring, Alignment, Fault Localization, and Repair...
  13. Listremove数据时报错:Caused by: java.lang.UnsupportedOperationException
  14. Win11/Win10无法保存ip设置提示请检查一个或多个设置并重试怎么办?
  15. [人机交互]协作与通信的设计
  16. 二叉树—中序遍历—非递归
  17. centos的根目录占了大量空间怎么办
  18. 大语言模型(LLM)领域,有几项显著的进展和技术突破
  19. 如何用Java读取PDF
  20. 自然语言处理之情感分析:ALBERT在社交媒体的应用技术教程
  21. 前四月国家铁路发送货物12.99亿吨,同比增长3.6%
  22. 古稀之年的设计家吴国欣:重拾水彩,触摸老上海文脉
  23. 从《缶翁的世界》开始,看吴昌硕等湖州籍书画家对海派的影响
  24. 朝鲜称将在各领域采取反制措施,应对美国敌对挑衅
  25. 既是工具又是食物,可食用机器人开启舌尖上的新科技
  26. 商务部回应稀土出口管制问题