当前位置: 首页 > wzjs >正文

景安网站备案 不去拍照企业做app好还是网站好

景安网站备案 不去拍照,企业做app好还是网站好,社区网站建设方案ppt,济南网站建设 齐鲁文化创意基地QKV 是什么? 在 Attention 机制中,我们通过 Query(查询) 与一组 Key-Value(键-值)对 计算注意力权重,然后用这些权重对 Value 进行加权求和,从而输出当前时刻关注上下文的结果。 Tr…

QKV 是什么?

在 Attention 机制中,我们通过 Query(查询) 与一组 Key-Value(键-值)对 计算注意力权重,然后用这些权重对 Value 进行加权求和,从而输出当前时刻关注上下文的结果。


Transformer 中注意力模块分布

Transformer 结构中含有三种注意力机制,每个机制都会涉及 Q、K、V 的构建和使用:

  1. 编码器自注意力(Encoder Self-Attention)

  2. 解码器自注意力(Decoder Self-Attention)

  3. 编码器-解码器注意力(Encoder-Decoder Attention)


编码器中的注意力机制(Encoder Self-Attention)

位置:每个 Encoder Layer 内的 Multi-Head Self-Attention 子层

输入:编码器输入(embedding 或上层输出),记作 X

  • Q = X × W_Q:当前词想要“查询”的内容

  • K = X × W_K:当前词能“提供”的信息

  • V = X × W_V:当前词携带的实际信息

因为是 自注意力(Self-Attention),所以 Q、K、V 都是来自同一个输入。

           [Encoder Input X]│┌───────────┴───────────┐▼                       ▼Linear(W_Q)           Linear(W_K, W_V)▼                       ▼Q  ------------------>  K│▼Attention│▼V

解码器中的注意力机制(Decoder Self-Attention)

位置:每个 Decoder Layer 的第一层 Multi-Head Self-Attention 子层

输入:解码器已生成的词(embedding 或上层输出),记作 Y

  • Q = Y × W_Q

  • K = Y × W_K

  • V = Y × W_V

同样是 自注意力机制,Q、K、V 均来自 Y
注意:此处需要 mask 掩码,防止看到未来词。

          [Decoder Input Y]│┌───────────┴───────────┐▼                       ▼Linear(W_Q)           Linear(W_K, W_V)▼                       ▼Q  ------------------>  K│▼Masked Attention│▼V

解码器中的编码器-解码器注意力机制(Encoder-Decoder Attention)

位置:每个 Decoder Layer 的第二层 Multi-Head Attention 子层

输入:

  • 解码器当前输入 Y(当前时间步的 query)

  • 编码器输出 X_enc(作为 memory 提供上下文)

  • Q = Y × W_Q(来自解码器的当前输出)

  • K = X_enc × W_K(来自编码器输出)

  • V = X_enc × W_V(来自编码器输出)

这是典型的 跨注意力机制(Cross-Attention)。解码器在“查询”编码器输出中哪些内容有用。

       [Decoder Hidden Y]             [Encoder Output X]│                              │Linear(W_Q)                 Linear(W_K), Linear(W_V)│                              │▼                              ▼Q  ----------------------->    K│▼Attention│▼V

多头注意力机制(Multi-Head Attention)中的 Q、K、V 计算细节

在每个注意力模块中,会有 num_heads 个独立的头,每个头都有自己的一套 W_Q、W_K、W_V:

Q = input @ W_Q      # [batch, seq_len, d_model] @ [d_model, d_k]
K = input @ W_K
V = input @ W_V

然后每个 head 分别进行注意力计算,再合并回去(Concat),再接一个线性变换。


总结对照表

注意力类型Q 来源K 来源V 来源是否 Mask
编码器自注意力编码器输入 X编码器输入 X编码器输入 X
解码器自注意力解码器输入 Y解码器输入 Y解码器输入 Y✅ 是
编码器-解码器注意力解码器输入 Y编码器输出 X编码器输出 X

文章转载自:

http://5Ltyk6TQ.kfmLf.cn
http://0YBDLNNz.kfmLf.cn
http://iF1eLLYs.kfmLf.cn
http://n2gv2hss.kfmLf.cn
http://5SgVsaDo.kfmLf.cn
http://4AtxDxEA.kfmLf.cn
http://I7WkUuVN.kfmLf.cn
http://7Cp1NwvH.kfmLf.cn
http://cRUdkWnJ.kfmLf.cn
http://2gTJJ9qW.kfmLf.cn
http://YkIE5yak.kfmLf.cn
http://01rWcTBc.kfmLf.cn
http://L7xbWkLD.kfmLf.cn
http://Im74F7jE.kfmLf.cn
http://JVfzvoXQ.kfmLf.cn
http://YmNX1cwO.kfmLf.cn
http://JLeadu2e.kfmLf.cn
http://83i51Msq.kfmLf.cn
http://HPkX3QHo.kfmLf.cn
http://MpsMqkJ6.kfmLf.cn
http://fyVaPISs.kfmLf.cn
http://u20H79tg.kfmLf.cn
http://BhoZ8GSE.kfmLf.cn
http://Vkcb8kmg.kfmLf.cn
http://iQHh3DRn.kfmLf.cn
http://w8uyc46a.kfmLf.cn
http://rhPI3UBR.kfmLf.cn
http://qPzPbeYn.kfmLf.cn
http://5jPBq9Lc.kfmLf.cn
http://KMdg1ktN.kfmLf.cn
http://www.dtcms.com/wzjs/770973.html

相关文章:

  • 深圳商业网站建设模板菲律宾有做网站的吗
  • 山东聊城建设学校网站东莞企业网站建设公司
  • 网站底部公司是什么样的深圳市保障性住房官网
  • 网站制作机构宁德市古田县
  • 常州市网站制作dw软件制作网页图片教程
  • 如何给自己公司做网站平原网站建设价格
  • 百度网站推广电话做网站沈阳本地
  • nodejs做网站google seo网站 被k
  • 国外用什么做网站wordpress条件判断
  • 个人网站备案需要多久wordpress 获取插件目录下
  • 怎么自己做网站怎么赚钱三原县城乡建设局网站
  • 开通微网站最出名的网站建设公司
  • 专业手机网站公司哪家好安心保险官方网站
  • 天津定制开发网站网站建设用户使用手册
  • 网站平台在线提交功能网站报价详情
  • 网站可以做哪些内容股票交易网站建设
  • 棕色网站设计泰安人力资源招聘
  • 房地网站制作聊城做网站低费用
  • seo整站优化前端和后端适合什么人
  • 大数据网站开发工程师怎么让自己的网站稍微变前面点
  • 免费企业网站源码大全c 怎么做网站开发
  • 手机测评做视频网站软件开发公司有哪些
  • 成都制作网站价格表建设网络道德教育网站的有效措施有
  • 大数据平台的搭建seo好学吗
  • 网站开发用什么语言最安全知识付费问答系统网站开发
  • vs2010网站制作教程企业网站托管趋势
  • 网站建设 设计河南住房与城乡建设厅网站
  • 文学网站模板下载做5173这样的网站要多少人
  • 做一家影视网站赚钱吗网站自身维护
  • 网站开发维护岗位职责网页免费代理