当前位置: 首页 > wzjs >正文

天长网站设计seo网站推广的主要目的包括

天长网站设计,seo网站推广的主要目的包括,上海闸北网站建设,制作app费用QKV 是什么? 在 Attention 机制中,我们通过 Query(查询) 与一组 Key-Value(键-值)对 计算注意力权重,然后用这些权重对 Value 进行加权求和,从而输出当前时刻关注上下文的结果。 Tr…

QKV 是什么?

在 Attention 机制中,我们通过 Query(查询) 与一组 Key-Value(键-值)对 计算注意力权重,然后用这些权重对 Value 进行加权求和,从而输出当前时刻关注上下文的结果。


Transformer 中注意力模块分布

Transformer 结构中含有三种注意力机制,每个机制都会涉及 Q、K、V 的构建和使用:

  1. 编码器自注意力(Encoder Self-Attention)

  2. 解码器自注意力(Decoder Self-Attention)

  3. 编码器-解码器注意力(Encoder-Decoder Attention)


编码器中的注意力机制(Encoder Self-Attention)

位置:每个 Encoder Layer 内的 Multi-Head Self-Attention 子层

输入:编码器输入(embedding 或上层输出),记作 X

  • Q = X × W_Q:当前词想要“查询”的内容

  • K = X × W_K:当前词能“提供”的信息

  • V = X × W_V:当前词携带的实际信息

因为是 自注意力(Self-Attention),所以 Q、K、V 都是来自同一个输入。

           [Encoder Input X]│┌───────────┴───────────┐▼                       ▼Linear(W_Q)           Linear(W_K, W_V)▼                       ▼Q  ------------------>  K│▼Attention│▼V

解码器中的注意力机制(Decoder Self-Attention)

位置:每个 Decoder Layer 的第一层 Multi-Head Self-Attention 子层

输入:解码器已生成的词(embedding 或上层输出),记作 Y

  • Q = Y × W_Q

  • K = Y × W_K

  • V = Y × W_V

同样是 自注意力机制,Q、K、V 均来自 Y
注意:此处需要 mask 掩码,防止看到未来词。

          [Decoder Input Y]│┌───────────┴───────────┐▼                       ▼Linear(W_Q)           Linear(W_K, W_V)▼                       ▼Q  ------------------>  K│▼Masked Attention│▼V

解码器中的编码器-解码器注意力机制(Encoder-Decoder Attention)

位置:每个 Decoder Layer 的第二层 Multi-Head Attention 子层

输入:

  • 解码器当前输入 Y(当前时间步的 query)

  • 编码器输出 X_enc(作为 memory 提供上下文)

  • Q = Y × W_Q(来自解码器的当前输出)

  • K = X_enc × W_K(来自编码器输出)

  • V = X_enc × W_V(来自编码器输出)

这是典型的 跨注意力机制(Cross-Attention)。解码器在“查询”编码器输出中哪些内容有用。

       [Decoder Hidden Y]             [Encoder Output X]│                              │Linear(W_Q)                 Linear(W_K), Linear(W_V)│                              │▼                              ▼Q  ----------------------->    K│▼Attention│▼V

多头注意力机制(Multi-Head Attention)中的 Q、K、V 计算细节

在每个注意力模块中,会有 num_heads 个独立的头,每个头都有自己的一套 W_Q、W_K、W_V:

Q = input @ W_Q      # [batch, seq_len, d_model] @ [d_model, d_k]
K = input @ W_K
V = input @ W_V

然后每个 head 分别进行注意力计算,再合并回去(Concat),再接一个线性变换。


总结对照表

注意力类型Q 来源K 来源V 来源是否 Mask
编码器自注意力编码器输入 X编码器输入 X编码器输入 X
解码器自注意力解码器输入 Y解码器输入 Y解码器输入 Y✅ 是
编码器-解码器注意力解码器输入 Y编码器输出 X编码器输出 X
http://www.dtcms.com/wzjs/375637.html

相关文章:

  • 对单位网站的要求百度投诉中心24人工客服
  • 衡水做网站推广的公司百度指数数据官网
  • 石家庄外贸网站制作公司百度推广电话客服
  • 在国外网站做中国旅游推广怎么找一手app推广代理
  • 做网站页面的软件网络广告一般是怎么收费
  • html访问wordpress网店seo
  • 虚拟主机免费试用楚雄seo
  • 长沙县疫情最新消息如何快速优化网站排名
  • 做图文网站要什么配置的服务器长沙优化科技
  • 做期权注册网站整合营销传播的定义
  • 网站构建百度seo排名优化如何
  • 做外国美食的视频网站网络推广和竞价怎么做
  • 网站推广公司成功的经典案例上海疫情又要爆发了
  • 上海做高端网站建设百度指数排名热搜榜
  • 做外围代理要有自己的网站怎么开设自己的网站
  • 宝洁公司网站建设案例台州网站制作维护
  • 嘉兴百度网站推广app推广代理去哪里找
  • 潍坊住房和城乡建设厅网站电话下载手机百度最新版
  • 松山湖做网站seo收费
  • jarida wordpress宁波网站优化
  • 电子商务论文网站建设高端网站定制开发
  • asp网站怎么改成中英双语如何交换友情链接
  • 网站域名备案和做网站信息流广告投放渠道
  • 临河做网站百度关键词竞价和收费的方法
  • 自己做的网站360显示过期线上it培训机构
  • 软件网站开发公司怎么自己开网站
  • 三折页设计那个网站做的好个人怎么做推广
  • 外链建设都需要带网站网址怎么进行网络营销
  • 万盛经开区建设局网站如何优化关键词提升相关度
  • 湖南做旅游网站淘宝seo软件