当前位置: 首页 > wzjs >正文

搜索敏感词后很多网站打不开了个人网站建设心得体会

搜索敏感词后很多网站打不开了,个人网站建设心得体会,深圳模板网站,公司网站网页制作建议学习资料来源于字母站大学 1 Transformer架构 基于编码器-解码器的架构来处理序列对。跟使用注意力的seq2seq不同,Transformer是基于纯注意力。 2 注意力 2.1 自注意力机制 使用注意力:需要根据整个序列进行预测,对于同一input&#xf…

学习资料来源于字母站大学

1 Transformer架构

  • 基于编码器-解码器的架构来处理序列对。
  • 跟使用注意力的seq2seq不同,Transformer是基于纯注意力。

2 注意力

2.1 自注意力机制

使用注意力:需要根据整个序列进行预测,对于同一input,不同的上下文输出不同,序列长度也不同,无法用固定窗口。

Self-attention架构示意图

首先要得到一个能表示输入向量本身及其与序列其他向量的关联性( α \alpha α)的向量, α \alpha α即注意力分数。

请添加图片描述
根据 α \alpha α可以得知,哪些向量和 a a a关联性最高,就可以根据 α \alpha α抽取信息
请添加图片描述
将所有的 a a a q q q拼起来成矩阵,就一次性计算得到了所有的 q q q,同理, k k k v v v也通过矩阵运算一次性得到。
请添加图片描述
注意力分数的计算同样将 q q q k k k的点乘过程拼接成矩阵,然后对每一列做softmax

请添加图片描述
请添加图片描述
总过程:
请添加图片描述

2.2 多头注意力

由于所谓的“相关性”不是一个固定的定义,可以有多种表现形式,所以在用 q q q寻找不同的 k k k时,需要不同的 q q q负责得到不同种类的相关性,同时,由于有多个 q q q,所以也有多个 k k k和多个 v v v,相同类别的 q q q k k k v v v一起计算
请添加图片描述

3 Add&LayerNorm

Transformer在自注意力块的输出部分又加上了输入,然后一起输入Norm层。
Transformer的LayerNorm计算公式:
y = x − E ( x ) V a r ( x ) + ϵ ∗ α + β y=\frac{x-E(x)}{\sqrt{Var(x)+\epsilon}}*\alpha+\beta y=Var(x)+ϵ xE(x)α+β
其中 α \alpha α β \beta β是可学习参数,用来防止输出数据落在后续的激活函数近似线性的范围内,失去激活函数非线性特性。 ϵ \epsilon ϵ用来防止分母为0。
LayerNorm用来稳定神经网络的训练,将输入归一化到均值为0方差为1的分布中,避免训练中产生梯度消失或梯度爆炸。LayerNorm是在最后一个特征维度做归一化(一个单词内部),可以保证稳定性。

4 解码器——交叉注意力

对于Transformer架构解码器中间部分,有来自Encoder的输入,也有来自Decoder的输入,这部分架构叫做交叉注意力。总的来说,交叉注意力的 q q q来自于Decoder, k k k v v v来自于Encoder,也就是用Decoder的 q q q来抽取Encoder信息作为下一步的输入。
交叉注意力计算示意图

面试题篇

1 Transformer/RNN/CNN对比

各个模型对于NLP任务需要抽取的特征的性能:

  • 上下文语义(方向、长度):Transformer > RNN > CNN
  • 序列特征:RNN > Transformer > CNN
  • 速度:CNN > Transformer > RNN

Transformer擅长抽取上下文语义特征的原因:RNN只能对句子进行单向的编码,CNN只能对短句进行编码,而transformer既可以同时编码双向的语义,又可以抽取长距离特征,在NLP特征抽取方面能力更强。

CNN其实是self-attention的特例。单向RNN未考虑右边序列的input且顺序执行,self-attention是并行的。

2 Transformer为什么将特征维度拆分成多个头
  • 从不同角度捕捉信息,防止每个输入对自身注意力分数过高,增强模型表达能力
  • 实现并行计算,提高计算效率
  • 缓解梯度消失:当维度 d d d很大时,点积结果的方差也会很大,做softmax后会变成近似one-hot编码,导致梯度消失。
3 为什么使用乘性注意力而不用加性注意力

在GPU场景下,矩阵乘法的计算效率更高

4 A t t e n t i o n ( Q , K , V ) = s o f t m a x Q K T d k V \mathrm{Attention}(Q,K,V)=\mathrm{softmax}\frac{QK^T}{\sqrt{d_k}}V Attention(Q,K,V)=softmaxdk QKTV为什么要除以 d k \sqrt{d_k} dk

如果两个矩阵都是服从正态分布的,矩阵相乘后由于元素是相乘再相加,那么结果就变成均值为0,方差为 d d d的分布了,方差如果很大,和问题1的原因相同,可能会产生很分散的数值,使得softmax后导致梯度消失,所以要除以标准差恢复到正态分布。
梯度消失举例:对于 z = [ 1000 , 1 , − 1000 ] z=[1000,1,-1000] z=[1000,1,1000],计算softmax:
s o f t m a x ( z ) = [ d 1000 e 1000 + e 1 + e − 1000 , e 1 e 1000 + e 1 + e − 1000 , e − 1000 e 1000 + e 1 + e − 1000 ] ≈ [ 1 , 0 , 0 ] \mathrm{softmax}(z)=[\frac{d^{1000}}{e^{1000}+e^1+e^{-1000}},\frac{e^1}{e^{1000}+e^1+e^{-1000}},\frac{e^{-1000}}{e^{1000}+e^1+e^{-1000}}]\approx[1,0,0] softmax(z)=[e1000+e1+e1000d1000,e1000+e1+e1000e1,e1000+e1+e1000e1000][1,0,0]
对softmax求梯度
s o f t m a x ( z i ) = e z i ∑ k = 1 C e z k , i ∈ { 1 , 2 , . . . , C } \mathrm{softmax}(z_i)=\frac{e^{z_i}}{\sum_{k=1}^{C}e^{z_k}},i\in \{1,2,...,C\} softmax(zi)=k=1Cezkezi,i{1,2,...,C}
∂ s o f t m a x ( z i ) ∂ z j = { s o f t m a x ( z i ) , i f i = j − s o f t m a x ( z i ) ⋅ s o f t m a x ( z j ) , i f i ≠ j \frac{\partial \mathrm{softmax}(z_i)}{\partial z_j}=\begin{cases} \mathrm{softmax}(z_i),\mathrm{if}\ i=j \\-\mathrm{softmax}(z_i)·\mathrm{softmax}(z_j),\mathrm{if}\ i\neq j \end{cases} zjsoftmax(zi)={softmax(zi),if i=jsoftmax(zi)softmax(zj),if i=j
带入数值,对于 s o f t m a x ( z i ) ≈ 1 \mathrm{softmax}(z_i)\approx 1 softmax(zi)1,梯度为0,对于其他位置 j j j s o f t m a x ( z i ) ≈ 0 \mathrm{softmax}(z_i)\approx 0 softmax(zi)0,梯度同样为0,导致梯度消失。

5 为什么源码实现中mask被丢弃的token值置为-10000而不是置0

如果被丢弃的token值为0,做softmax时分子为1而不是趋近于0的值,也能得到概率值,无法满足正常token的概率和为1。


文章转载自:

http://PRhE4Y5i.ttnfc.cn
http://iW8X30BX.ttnfc.cn
http://pxwqiwxa.ttnfc.cn
http://OKVvaWiY.ttnfc.cn
http://yunkq1Zv.ttnfc.cn
http://R9VJQMkS.ttnfc.cn
http://IjIiuZpX.ttnfc.cn
http://FEWDAFnm.ttnfc.cn
http://JcWx5fD1.ttnfc.cn
http://VOSzxURC.ttnfc.cn
http://s0sJqOQk.ttnfc.cn
http://nJ6LrCjz.ttnfc.cn
http://An8I9hfH.ttnfc.cn
http://26w4avCq.ttnfc.cn
http://rwBE9fcF.ttnfc.cn
http://84gK02gP.ttnfc.cn
http://PalyMQ8X.ttnfc.cn
http://nAYbVRhz.ttnfc.cn
http://CHtxpbus.ttnfc.cn
http://z2cjsUu7.ttnfc.cn
http://MujaUoUM.ttnfc.cn
http://E81t35xs.ttnfc.cn
http://Xj61URMK.ttnfc.cn
http://iMVxZANQ.ttnfc.cn
http://t2yBbWAx.ttnfc.cn
http://YaVq8JOW.ttnfc.cn
http://6YS5sVCM.ttnfc.cn
http://7OKTFm6j.ttnfc.cn
http://PDrMc7GD.ttnfc.cn
http://9tf9dGBT.ttnfc.cn
http://www.dtcms.com/wzjs/713456.html

相关文章:

  • 免费的行情软件网站下载wordpress 摘要 空格
  • wordpress建图片网站乐都企业网站建设哪家快
  • 淘宝网站框架搏彩网站开发建设
  • 樟树网站建设什么行业 网站
  • 大兴区网站建设公司枣庄网站建设哪家强
  • h5商城网站模板下载网页设计与制作感受
  • 做电商网站注意什么问题鹤壁建设网站推广公司
  • 网站建设三个阶段泉州网站建设技术外包
  • 南联网站建设公司滨州做网站的科技公司
  • 做网站烧钱重庆网络公司价格
  • 企业网站用什么做二次开发最快网站怎么做seo优化
  • 五百亿建站模板标志设计作业
  • 目前网站开发的主流语言是什么客户管理系统免费版
  • 佟年帮韩商言做网站是第几集wordpress入侵方法
  • 虚拟主机和云服务器的区别网站设计与优化
  • 福建建设执业管理中心网站图片编辑器在线制作
  • 网站设计制作程序wordpress 代码详解
  • 坪山网站建设高端建站模版
  • 网站mp3播放器代码成都企业网站公司
  • 摄影行业网站四川省住房和城乡建设厅厅长
  • 北京制作网站公司哪家好青岛圭谷网站建设公司
  • 立方集团 网站小程序直播开发
  • 烟台网站设计公司推荐网上商城是什么软件
  • 关于药品网站建设策划书培训机构加盟店排行榜
  • 网站策划内容有哪些wordpress文章主题
  • 上海专业的网站建设网页设计总结报告500字
  • 网站开发安全维护网站建设销售技巧话术
  • 免费建站模板哪个好保山市住房和城上建设局网站
  • 网站自动发送邮件国外建站数据
  • 公众号做视频网站网络推广好的公司