当前位置: 首页 > wzjs >正文

境内境外网站区别企业宣传

境内境外网站区别,企业宣传,集艾设计公司官网,做建筑材料的网站有哪些QKV 是什么? 在 Attention 机制中,我们通过 Query(查询) 与一组 Key-Value(键-值)对 计算注意力权重,然后用这些权重对 Value 进行加权求和,从而输出当前时刻关注上下文的结果。 Tr…

QKV 是什么?

在 Attention 机制中,我们通过 Query(查询) 与一组 Key-Value(键-值)对 计算注意力权重,然后用这些权重对 Value 进行加权求和,从而输出当前时刻关注上下文的结果。


Transformer 中注意力模块分布

Transformer 结构中含有三种注意力机制,每个机制都会涉及 Q、K、V 的构建和使用:

  1. 编码器自注意力(Encoder Self-Attention)

  2. 解码器自注意力(Decoder Self-Attention)

  3. 编码器-解码器注意力(Encoder-Decoder Attention)


编码器中的注意力机制(Encoder Self-Attention)

位置:每个 Encoder Layer 内的 Multi-Head Self-Attention 子层

输入:编码器输入(embedding 或上层输出),记作 X

  • Q = X × W_Q:当前词想要“查询”的内容

  • K = X × W_K:当前词能“提供”的信息

  • V = X × W_V:当前词携带的实际信息

因为是 自注意力(Self-Attention),所以 Q、K、V 都是来自同一个输入。

           [Encoder Input X]│┌───────────┴───────────┐▼                       ▼Linear(W_Q)           Linear(W_K, W_V)▼                       ▼Q  ------------------>  K│▼Attention│▼V

解码器中的注意力机制(Decoder Self-Attention)

位置:每个 Decoder Layer 的第一层 Multi-Head Self-Attention 子层

输入:解码器已生成的词(embedding 或上层输出),记作 Y

  • Q = Y × W_Q

  • K = Y × W_K

  • V = Y × W_V

同样是 自注意力机制,Q、K、V 均来自 Y
注意:此处需要 mask 掩码,防止看到未来词。

          [Decoder Input Y]│┌───────────┴───────────┐▼                       ▼Linear(W_Q)           Linear(W_K, W_V)▼                       ▼Q  ------------------>  K│▼Masked Attention│▼V

解码器中的编码器-解码器注意力机制(Encoder-Decoder Attention)

位置:每个 Decoder Layer 的第二层 Multi-Head Attention 子层

输入:

  • 解码器当前输入 Y(当前时间步的 query)

  • 编码器输出 X_enc(作为 memory 提供上下文)

  • Q = Y × W_Q(来自解码器的当前输出)

  • K = X_enc × W_K(来自编码器输出)

  • V = X_enc × W_V(来自编码器输出)

这是典型的 跨注意力机制(Cross-Attention)。解码器在“查询”编码器输出中哪些内容有用。

       [Decoder Hidden Y]             [Encoder Output X]│                              │Linear(W_Q)                 Linear(W_K), Linear(W_V)│                              │▼                              ▼Q  ----------------------->    K│▼Attention│▼V

多头注意力机制(Multi-Head Attention)中的 Q、K、V 计算细节

在每个注意力模块中,会有 num_heads 个独立的头,每个头都有自己的一套 W_Q、W_K、W_V:

Q = input @ W_Q      # [batch, seq_len, d_model] @ [d_model, d_k]
K = input @ W_K
V = input @ W_V

然后每个 head 分别进行注意力计算,再合并回去(Concat),再接一个线性变换。


总结对照表

注意力类型Q 来源K 来源V 来源是否 Mask
编码器自注意力编码器输入 X编码器输入 X编码器输入 X
解码器自注意力解码器输入 Y解码器输入 Y解码器输入 Y✅ 是
编码器-解码器注意力解码器输入 Y编码器输出 X编码器输出 X

文章转载自:

http://HoZrHwD5.wbyLy.cn
http://4GC0G1Pi.wbyLy.cn
http://8xjwI9Sz.wbyLy.cn
http://quliQyZQ.wbyLy.cn
http://ddissKV4.wbyLy.cn
http://iYMG6kMK.wbyLy.cn
http://vM2hRZYg.wbyLy.cn
http://TL1286Y2.wbyLy.cn
http://o3gJA9iJ.wbyLy.cn
http://Z08wAp5y.wbyLy.cn
http://uyYImvfT.wbyLy.cn
http://QE96FK58.wbyLy.cn
http://7VeCuAnn.wbyLy.cn
http://7GlAAvPj.wbyLy.cn
http://o3U3oAYP.wbyLy.cn
http://JqEnFD9M.wbyLy.cn
http://ENm3ToB6.wbyLy.cn
http://OzuuZ60k.wbyLy.cn
http://HtWxBSBe.wbyLy.cn
http://W5FB9dbI.wbyLy.cn
http://62hacuM5.wbyLy.cn
http://FfW49Xro.wbyLy.cn
http://ARwlwlzl.wbyLy.cn
http://4XFW4Loj.wbyLy.cn
http://nsRtVfyd.wbyLy.cn
http://GME6uQcz.wbyLy.cn
http://jQGq1Y2Z.wbyLy.cn
http://nAIGIoMW.wbyLy.cn
http://doP32jRs.wbyLy.cn
http://xNPdcLY5.wbyLy.cn
http://www.dtcms.com/wzjs/737404.html

相关文章:

  • 北京南站在哪个街道网站建设的几个阶段
  • 如何在交易网站做电子印章济南网站建设就选搜点网络ok
  • 建筑设计招标网站湖南响应式网站哪家好
  • 导航网站怎么做湖北百度seo厂家
  • 别人的网站是怎么找到的合肥电信网站备案
  • 成都门户网站建设网站开发团队成员介绍
  • 重庆綦江网站制作公司电话求职简历模板2021
  • 微信订阅号怎么做网站网站建设尽量
  • 常州网站制作公司多吗了解深圳网站页面设计
  • 富阳网站建设报价dw建设网站的代码模板下载
  • 石家庄做网站好的公司推荐目前流行的app网站开发模式
  • 优化推广网站推荐wordpress 支付方式
  • 优秀网站设计推荐网站制作策划建设大纲
  • 电子商务网站建设期末试题及答案安徽圣力建设集团网站
  • 优质的网站网页登录
  • 二手车网站模板建设专门做瑜伽的网站
  • 深圳软件开发公司推荐wordpress 内存优化
  • 上海网站推广排名贵阳网站建设 网站制作
  • 页面模板微信优化网站哪家好
  • 彩虹网站建设最近国内重大新闻事件
  • 那个网站做玉石最专业wordpress 多站点错误
  • 做可转债好的网站专业网站建设服务
  • 江苏高校品牌专业建设工程网站房地产网信息
  • 网站开发能从事那些职业ol游戏大全排行榜
  • 网站文件名格式有那些可以自己做壁纸的网站
  • wordpress站点很慢网站建设什么公司专业
  • 表白网站是怎么做的申京效率值联盟第一
  • 安徽省住房与城乡建设网站城乡建设行业证书查询
  • 知名的企业网站建设怎么在百度发布免费广告
  • 个人宽带备案网站成都网站建设大公司