当前位置: 首页 > wzjs >正文

进口外贸网站有哪些代哥seo

进口外贸网站有哪些,代哥seo,wordpress页面内菜单,宣城公司做网站Self-Attention机制 产生原因:每个词在句子中的重要程度不同,所以对每个词要赋予不一样的权重。 自注意力机制是注意力机制的一种,目的是让机器注意到整个输入中不同部分之间的相关性。其减少了对外部信息的依赖,更擅长捕捉数据…

Self-Attention机制

产生原因:每个词在句子中的重要程度不同,所以对每个词要赋予不一样的权重。

自注意力机制是注意力机制的一种,目的是让机器注意到整个输入中不同部分之间的相关性。其减少了对外部信息的依赖,更擅长捕捉数据或特征内部相关性。QKV是同一个东西,或来源于同一个X,从而更关注X的关键信息。

1、将input embedding成向量。

2、分别和权重矩阵相乘得到Query向量(查询),Key向量(键)和Value向量(值)。

Query向量(查询):查询的范围,主观意识的特征向量

Key向量(键):被比对的项,物体的突出特征向量

Value向量(值):物体本身的特征向量,与KEY成对出现

3、q1向量分别和k1,k2...做点积(点积是其中一种方法,还有cosine相似度,MLP网络),得到相关性分数(score)。这里为什么要点积呢,因为点积中的cos反映了两个向量在方向上的相似度。

4、为了避免模长给score带来影响,score会除以q、k、v维度的平方根(论文中是8),使梯度更稳定。

5、mask是可选步骤,在encoder里面不做,decoder里面会做(这个后面会讲)。

6、经过softmax得到权重因子(更加突出重要元素的权重)。

7、权重因子和value相乘得到词的新的向量表示。

公式如下:

Multi-Head Self-Attention

对于同一个输入X,定义多组可训练的参数矩阵,从而得到多个不同的Q,K,V,最后学习到不同的参数。

Encoder-Decoder

注意里面用到了交叉注意力机制(decoder的q和encoder的kv运算)

【Transformer系列(1)】encoder(编码器)和decoder(解码器)_encoder和decoder的区别-CSDN博客

layer Norm(NLP): 几个句子就有几个分布,并标准化,不同句子的语义失去可比性。

batch Norm(CV): 一个batch中同一通道的所有特征视为一个分布,并将其标准化,因为同一通道一般捕捉的是同一类特征。

mask 机制:做预测的时候只考虑输入向量本身和输入向量之前的向量,不考虑后面的向量

减少Attention计算量的方法

一、通过人类知识省略一些计算量

(1)local attention/ truncated attention

只需要知道左右邻居的key,其他的值都设为0。

类似CNN,因为a. 只关注局部区域;b. 参数共享; c. 局部特征提取

(2)stride attention

关注stride外的领居

(3)global attention

add special token into original sequence(类似token中的综合员)

these special tokens: attend to every token; attended by every token

二、只关注关键信息

(1)small values directly set to 0

如何找到small values? 对Q, K 做clustering,相近的vector属于一个群

(2)learnable patterns(学另一个Network)

(3)linformer/ compressed attention(压缩矩阵)

N keys---K representative keys

N values--K representative values

三、改变运算顺序

kq first-- vk first

改变前: N*d*N+d'*N*N

改变后:d'*N*d+d'*d*N

计算量得到的减少

四、新的框架结构

synthesizer

大模型输出采样方法(TOP-K,TOP-P,temperature)

top-k: 每一步只从概率最高的K个单词中进行随机采样(k是超参数)

top-p: 每次生成下一个单词时,首先计算所有可能单词的概率分布,然后从高向低排序,直到累积的概率和超过阈值,并在此范围内随机采样。

temperature: 使用温度调整单词的概率分布,温度越低模型越具有确定性。

【Transformer系列(2)】注意力机制、自注意力机制、多头注意力机制、通道注意力机制、空间注意力机制超详细讲解-CSDN博客

http://www.dtcms.com/wzjs/53815.html

相关文章:

  • 网站建设公司做销售前景好不好?网站热度查询
  • 树莓派发布网站做性能测试seo优化团队
  • 提供设计网站效果图全国免费发布广告信息平台
  • 个人网站对应网站网址网站排名seo教程
  • 网络营销导向企业网站建设的原则广州各区最新动态
  • 法律网站建设百度品牌专区
  • 二手车网站模板建设网络营销比较成功的企业
  • 南宁网站建设官网线上招生引流推广方法
  • 重庆的主要的网站广告推广费用
  • 最好科技广州网站建设网站开发月薪多少钱
  • 广东省政府网站集约化平台建设职业培训机构哪家最好
  • 利用微博做网站排名厦门网站seo外包
  • 阿里云网站怎么做阿里妈妈宣传软文怎么写
  • 网站建设专家cms什么软件推广效果好
  • 电脑上做任务赚钱的网站深圳百度快照优化
  • 榆次做网站google seo实战教程
  • 网站js特效怎么创建网站赚钱
  • 现在那个网站做视频最赚钱吗seo门户网站优化
  • dede网站地图修改除了百度指数还有哪些指数
  • axure开始怎么做网站首页品牌网络推广外包
  • 炫酷的国外网站杭州关键词优化平台
  • 上海网站建设网络推广网络运营培训班多少钱
  • flash网址优化网站标题和描述的方法
  • 做网站可以用自己的主机太原网站制作推广
  • 58上海同城网关键词优化收费标准
  • 低价做营销企业网站网络营销师资格证报名
  • 重庆网站建设是什么发布新闻最快的网站
  • 台州招聘网站建设指数型基金是什么意思
  • 大型网站建设深圳网
  • 一个好的网站是什么样的百度帐号申请注册