当前位置：首页 > wzjs >正文

进口外贸网站有哪些百度竞价可以自学吗

wzjs 2025/7/31 23:53:49

进口外贸网站有哪些,百度竞价可以自学吗,个人网站注册名称,广州市工程交易中心官网Self-Attention机制产生原因：每个词在句子中的重要程度不同，所以对每个词要赋予不一样的权重。自注意力机制是注意力机制的一种，目的是让机器注意到整个输入中不同部分之间的相关性。其减少了对外部信息的依赖，更擅长捕捉数据…

Self-Attention机制

产生原因：每个词在句子中的重要程度不同，所以对每个词要赋予不一样的权重。

自注意力机制是注意力机制的一种，目的是让机器注意到整个输入中不同部分之间的相关性。其减少了对外部信息的依赖，更擅长捕捉数据或特征内部相关性。QKV是同一个东西，或来源于同一个X，从而更关注X的关键信息。

1、将input embedding成向量。

2、分别和权重矩阵相乘得到Query向量（查询），Key向量（键）和Value向量（值）。

Query向量（查询）：查询的范围，主观意识的特征向量

Key向量（键）：被比对的项，物体的突出特征向量

Value向量（值）：物体本身的特征向量，与KEY成对出现

3、q1向量分别和k1,k2...做点积（点积是其中一种方法，还有cosine相似度，MLP网络），得到相关性分数（score）。这里为什么要点积呢，因为点积中的cos反映了两个向量在方向上的相似度。

4、为了避免模长给score带来影响，score会除以q、k、v维度的平方根（论文中是8），使梯度更稳定。

5、mask是可选步骤，在encoder里面不做，decoder里面会做（这个后面会讲）。

6、经过softmax得到权重因子（更加突出重要元素的权重）。

7、权重因子和value相乘得到词的新的向量表示。

公式如下：

Multi-Head Self-Attention

对于同一个输入X，定义多组可训练的参数矩阵，从而得到多个不同的Q，K，V，最后学习到不同的参数。

Encoder-Decoder

注意里面用到了交叉注意力机制（decoder的q和encoder的kv运算）

【Transformer系列（1）】encoder（编码器）和decoder（解码器）_encoder和decoder的区别-CSDN博客

layer Norm（NLP）: 几个句子就有几个分布，并标准化，不同句子的语义失去可比性。

batch Norm（CV）: 一个batch中同一通道的所有特征视为一个分布，并将其标准化，因为同一通道一般捕捉的是同一类特征。

mask 机制：做预测的时候只考虑输入向量本身和输入向量之前的向量，不考虑后面的向量

减少Attention计算量的方法

一、通过人类知识省略一些计算量

（1）local attention/ truncated attention

只需要知道左右邻居的key，其他的值都设为0。

类似CNN，因为a. 只关注局部区域；b. 参数共享； c. 局部特征提取

（2）stride attention

关注stride外的领居

（3）global attention

add special token into original sequence（类似token中的综合员）

these special tokens: attend to every token; attended by every token

二、只关注关键信息

（1）small values directly set to 0

如何找到small values? 对Q, K 做clustering，相近的vector属于一个群

（2）learnable patterns（学另一个Network）

（3）linformer/ compressed attention（压缩矩阵）

N keys---K representative keys

N values--K representative values

三、改变运算顺序

kq first-- vk first

改变前： N*d*N+d'*N*N

改变后：d'*N*d+d'*d*N

计算量得到的减少

四、新的框架结构

synthesizer

大模型输出采样方法（TOP-K,TOP-P,temperature）

top-k: 每一步只从概率最高的K个单词中进行随机采样（k是超参数）

top-p: 每次生成下一个单词时，首先计算所有可能单词的概率分布，然后从高向低排序，直到累积的概率和超过阈值，并在此范围内随机采样。

temperature: 使用温度调整单词的概率分布，温度越低模型越具有确定性。

【Transformer系列（2）】注意力机制、自注意力机制、多头注意力机制、通道注意力机制、空间注意力机制超详细讲解-CSDN博客

http://www.dtcms.com/wzjs/170448.html

相关文章：

求和萝莉做的网站铜仁搜狗推广

网站的建设外链优化网络推广公司排行榜

企业模式网站列表管理器广州网站优化运营

做兼职的网站有哪些什么是搜索引擎优化?

泰安住房和城乡建设厅网站免费推广公司的网站

网站开发是用模版还是纯手打太原百度推广排名优化

友汇网做公司网站网络推广员是干嘛的

同步网站内容怎么做seo中文意思

单页网站建设哪个品牌好做公司网站

java做的网站影响seo排名的因素有哪些

如何做网站微信支付网站搜索排名优化价格

网站开发的论文怎么写营销策略ppt模板

北京文化传媒有限公司网站建设阿里云域名

人才微网站开发seo站长综合查询

美德的网站建设连云港网站seo

wordpress 最后一页朝阳seo搜索引擎

中小企业网站建设多少钱百度seo搜索引擎优化培训

做一个小程序seo营销的概念

自助建设手机网站网络营销乐云seo

郴州网站建设设计制作营销推广方案案例

汇川区住房和城乡建设厅网站网络营销的真实案例分析

设计师网站behanceseo培训学校

网站建设可用性的五个方面西安搜建站科技网站

天圆地方建筑网站引擎优化seo

如何设计一个网页并举例说明郑州seo公司哪家好

沃通 wordpressseo每天一贴博客

网站在线报名怎么做外贸推广平台有哪几个

南京的电商网站设计网页设计培训

成都响应式网站建设网络推广人员

聊城房地产网站建设如何打百度人工电话