当前位置: 首页 > wzjs >正文

景安网站备案 不去拍照洛阳网站设计哪家专业

景安网站备案 不去拍照,洛阳网站设计哪家专业,网站开发工具及框架介绍,如何做网站外部链接QKV 是什么? 在 Attention 机制中,我们通过 Query(查询) 与一组 Key-Value(键-值)对 计算注意力权重,然后用这些权重对 Value 进行加权求和,从而输出当前时刻关注上下文的结果。 Tr…

QKV 是什么?

在 Attention 机制中,我们通过 Query(查询) 与一组 Key-Value(键-值)对 计算注意力权重,然后用这些权重对 Value 进行加权求和,从而输出当前时刻关注上下文的结果。


Transformer 中注意力模块分布

Transformer 结构中含有三种注意力机制,每个机制都会涉及 Q、K、V 的构建和使用:

  1. 编码器自注意力(Encoder Self-Attention)

  2. 解码器自注意力(Decoder Self-Attention)

  3. 编码器-解码器注意力(Encoder-Decoder Attention)


编码器中的注意力机制(Encoder Self-Attention)

位置:每个 Encoder Layer 内的 Multi-Head Self-Attention 子层

输入:编码器输入(embedding 或上层输出),记作 X

  • Q = X × W_Q:当前词想要“查询”的内容

  • K = X × W_K:当前词能“提供”的信息

  • V = X × W_V:当前词携带的实际信息

因为是 自注意力(Self-Attention),所以 Q、K、V 都是来自同一个输入。

           [Encoder Input X]│┌───────────┴───────────┐▼                       ▼Linear(W_Q)           Linear(W_K, W_V)▼                       ▼Q  ------------------>  K│▼Attention│▼V

解码器中的注意力机制(Decoder Self-Attention)

位置:每个 Decoder Layer 的第一层 Multi-Head Self-Attention 子层

输入:解码器已生成的词(embedding 或上层输出),记作 Y

  • Q = Y × W_Q

  • K = Y × W_K

  • V = Y × W_V

同样是 自注意力机制,Q、K、V 均来自 Y
注意:此处需要 mask 掩码,防止看到未来词。

          [Decoder Input Y]│┌───────────┴───────────┐▼                       ▼Linear(W_Q)           Linear(W_K, W_V)▼                       ▼Q  ------------------>  K│▼Masked Attention│▼V

解码器中的编码器-解码器注意力机制(Encoder-Decoder Attention)

位置:每个 Decoder Layer 的第二层 Multi-Head Attention 子层

输入:

  • 解码器当前输入 Y(当前时间步的 query)

  • 编码器输出 X_enc(作为 memory 提供上下文)

  • Q = Y × W_Q(来自解码器的当前输出)

  • K = X_enc × W_K(来自编码器输出)

  • V = X_enc × W_V(来自编码器输出)

这是典型的 跨注意力机制(Cross-Attention)。解码器在“查询”编码器输出中哪些内容有用。

       [Decoder Hidden Y]             [Encoder Output X]│                              │Linear(W_Q)                 Linear(W_K), Linear(W_V)│                              │▼                              ▼Q  ----------------------->    K│▼Attention│▼V

多头注意力机制(Multi-Head Attention)中的 Q、K、V 计算细节

在每个注意力模块中,会有 num_heads 个独立的头,每个头都有自己的一套 W_Q、W_K、W_V:

Q = input @ W_Q      # [batch, seq_len, d_model] @ [d_model, d_k]
K = input @ W_K
V = input @ W_V

然后每个 head 分别进行注意力计算,再合并回去(Concat),再接一个线性变换。


总结对照表

注意力类型Q 来源K 来源V 来源是否 Mask
编码器自注意力编码器输入 X编码器输入 X编码器输入 X
解码器自注意力解码器输入 Y解码器输入 Y解码器输入 Y✅ 是
编码器-解码器注意力解码器输入 Y编码器输出 X编码器输出 X

文章转载自:

http://u008yWvJ.yktzq.cn
http://SaSV8pfH.yktzq.cn
http://rGUAAQ5u.yktzq.cn
http://xlWwfOwF.yktzq.cn
http://tUjEk5rC.yktzq.cn
http://1wcHOwNd.yktzq.cn
http://c1xA45d2.yktzq.cn
http://5gFtBTV6.yktzq.cn
http://S3nXLwE6.yktzq.cn
http://XVWO2fbI.yktzq.cn
http://Dup6DeJJ.yktzq.cn
http://eG83DCox.yktzq.cn
http://7t0ujpk3.yktzq.cn
http://YCUEJtaA.yktzq.cn
http://YQdWlrSy.yktzq.cn
http://bx605qBN.yktzq.cn
http://5lVwhqcr.yktzq.cn
http://IDGy2aPr.yktzq.cn
http://yU5nj64v.yktzq.cn
http://DciH5bff.yktzq.cn
http://1DQrnHmL.yktzq.cn
http://ETslCgiW.yktzq.cn
http://k8iFpeG6.yktzq.cn
http://FNMS7BGV.yktzq.cn
http://KyCUQdnk.yktzq.cn
http://Ov0La0si.yktzq.cn
http://ldaKy0Pl.yktzq.cn
http://f37EzjEU.yktzq.cn
http://pmDDhOJX.yktzq.cn
http://YDQr6CTB.yktzq.cn
http://www.dtcms.com/wzjs/623638.html

相关文章:

  • 杭州微信网站制作前端面试题2022
  • 自己做的旅游网站简介校友网站建设的意义
  • 网站建设与维护 目录app直播源码
  • 论坛申请网站备案前置审批php网站好处
  • 企业网站建设排名价格做网站推广员图片处理问题
  • 学校网站风格网站设计提成多少钱
  • 做平面常用的网站设计工作室官网
  • 建筑效果图素材网站怎么让做的网站赚钱吗
  • 网站开发的调研内容网站欢迎页面 特效
  • 泸州网站开发公司wordpress+4.0+简体中文
  • 企业做网站的优势百度关键词优化多少钱一年
  • 达内网站开发学习培训常州模板网站建设
  • 兰州百度公司网站建设重庆合川企业网站建设联系电话
  • 网站如何做微信支付宝支付wordpress类目权限
  • 整站优化要多少钱深圳网站建设选哪家
  • 做网站开发的方案职业生涯规划ppt免费模板
  • 永州做网站公司做外贸网站市场
  • 威海城乡建设局网站首页导购网站模板
  • 做网站 所需资源wordpress禁止s.w.org
  • 临海网站建设公司西安最新数据消息
  • 赞叹天河网站建设公司河南省建设厅代建中心
  • 网站建设培训会讲话wordpress怎么分享到微信
  • 长春网站优化流程济南软件外包
  • 北京网站优化服务有限公司为什么做网站必须要用域名
  • 网站不备案不能用吗建设网银官网
  • jsp电商网站开发流程图荆门住房建设厅网站
  • 亚马逊的网站建设企业的网络推广
  • html可以做网站吗怎样宣传一个网站
  • 网站换行代码网页版qq音乐在线登录
  • 网站建设包含seo吗如何搭建公司网络