当前位置: 首页 > wzjs >正文

网站制作窍门wordpress泛域名插件

网站制作窍门,wordpress泛域名插件,如何做商业网站推广,查企业信息查询平台Decoder 论文地址 https://arxiv.org/pdf/1706.03762 Decoder结构介绍 Transformer Decoder是Transformer模型的核心生成组件,负责基于编码器输出和已生成内容预测后续token。通过堆叠多层结构相同的解码层(Decoder Layer),每层包…

Decoder

  • 论文地址

    https://arxiv.org/pdf/1706.03762

Decoder结构介绍

  • Transformer Decoder是Transformer模型的核心生成组件,负责基于编码器输出和已生成内容预测后续token。通过堆叠多层结构相同的解码层(Decoder Layer),每层包含自注意力机制、编码器-解码器注意力机制和前馈神经网络,实现序列生成的上下文感知。

    image-20250429173813182

    实现上图红色框中的整个Decoder结构

    主要组件包含:

    1. 词嵌入层:将目标序列token映射为连续向量
    2. 位置编码:加入自回归生成的位置信息
    3. 多层解码层:通过三类注意力机制进行上下文建模

数学流程

  • 解码器的计算过程可形式化为:
    Embedding : Y e m b e d = Embedding ( Y i n p u t ) PositionEncode : Y p o s = Y e m b e d + PositionEncoding ( s e q _ l e n ) DecoderLayers : H o u t = LayerNorm ( FFN ( EncDec-Attn ( Self-Attn ( Y p o s ) ) ) ) \begin{aligned} \text{Embedding} &: Y_{embed} = \text{Embedding}(Y_{input}) \\ \text{PositionEncode} &: Y_{pos} = Y_{embed} + \text{PositionEncoding}(seq\_len) \\ \text{DecoderLayers} &: H_{out} = \text{LayerNorm}( \text{FFN}( \text{EncDec-Attn}( \text{Self-Attn}(Y_{pos}) ) ) ) \end{aligned} EmbeddingPositionEncodeDecoderLayers:Yembed=Embedding(Yinput):Ypos=Yembed+PositionEncoding(seq_len):Hout=LayerNorm(FFN(EncDec-Attn(Self-Attn(Ypos))))
    每个解码层(DecoderLayers)包含:

    1. 带掩码的多头自注意力(Masked Multi-Head Self-Attention)
    2. 编码器-解码器注意力(Encoder-Decoder Attention)
    3. 前馈神经网络(Feed-Forward Network)
    4. 三次残差连接 + 层归一化

代码实现

  • 其他层的实现

    层名链接
    PositionEncodinghttps://blog.csdn.net/hbkybkzw/article/details/147431820
    calculate_attentionhttps://blog.csdn.net/hbkybkzw/article/details/147462845
    MultiHeadAttentionhttps://blog.csdn.net/hbkybkzw/article/details/147490387
    FeedForwardhttps://blog.csdn.net/hbkybkzw/article/details/147515883
    LayerNormhttps://blog.csdn.net/hbkybkzw/article/details/147516529
    EncoderLayerhttps://blog.csdn.net/hbkybkzw/article/details/147591824
    Encoderhttps://blog.csdn.net/hbkybkzw/article/details/147616115
    DecoderLayerhttps://blog.csdn.net/hbkybkzw/article/details/147616556

    下面统一在before.py中导入

  • 实现 transformer 解码器 Decoder

    import torch 
    from torch import nnfrom before import PositionEncoding,calculate_attention,MultiHeadAttention,FeedForward,LayerNorm,DecoderLayerclass Decoder(nn.Module):def __init__(self, vocab_size, padding_idx, d_model, n_heads, ffn_hidden, dropout_prob=0.1, num_layers=6, max_seq_len=512):super(Decoder, self).__init__()# 词嵌入层(含padding掩码)self.embedding = nn.Embedding(num_embeddings=vocab_size,embedding_dim=d_model,padding_idx=padding_idx)# 位置编码器self.position_encode = PositionEncoding(d_model=d_model,max_seq_len=max_seq_len)# 解码层堆叠self.decode_layers = nn.ModuleList([DecoderLayer(n_heads=n_heads,d_model=d_model,ffn_hidden=ffn_hidden,dropout_prob=dropout_prob) for _ in range(num_layers)])def forward(self, x, encoder_kv, dst_mask=None, src_dst_mask=None):# 输入形状: [batch_size, tgt_seq_len]embed_x = self.embedding(x)               # 词向量映射pos_encode_x = self.position_encode(embed_x)  # 位置编码# 逐层处理(携带编码器输出)for layer in self.decode_layers:pos_encode_x = layer(x=pos_encode_x,encoder_kv=encoder_kv,dst_mask=dst_mask,src_dst_mask=src_dst_mask)return pos_encode_x  # 输出形状: [batch_size, tgt_seq_len, d_model]
    

    关键组件说明:

    1. 双注意力机制:每层包含自注意力和编码器-解码器注意力
    2. 掩码控制
      • dst_mask:防止解码时看到未来信息(三角掩码)
      • src_dst_mask:控制编码器-解码器注意力范围
    3. 信息融合:将编码器输出作为Key/Value供解码器查询
  • 维度变化

    处理阶段张量形状变化示例
    原始输入[batch_size, tgt_seq_len]
    词嵌入层输出[batch_size, tgt_seq_len, d_model]
    位置编码[batch_size, tgt_seq_len, d_model]
    编码器输出[batch_size, src_seq_len, d_model]
    解码层输出[batch_size, tgt_seq_len, d_model]

使用示例

  • 测试用例

    if __name__ == "__main__":# 模拟输入:batch_size=4,目标序列长度32y = torch.randint(0, 100, (4, 32))# 编码器输出:batch_size=4,源序列长度64,维度512encoder_out = torch.randn(4, 64, 512)decoder = Decoder(vocab_size=100,padding_idx=0,d_model=512,n_heads=8,ffn_hidden=2048,num_layers=6,max_seq_len=51)out = decoder(y, encoder_out)print("输入形状:", y.shape)  print("编码器输出形状:", encoder_out.shape)  print("解码器输出形状:", out.shape)  
    
  • 参数解释

    参数名典型值作用描述
    vocab_size30000目标语言词表大小
    padding_idx0指定padding token的索引
    d_model512模型隐藏层维度
    n_heads8注意力头数量
    ffn_hidden2048前馈网络中间层维度
    num_layers6解码层堆叠数量
    max_seq_len512支持的最大序列长度
    encoder_kv-编码器输出,用于交叉注意力计算
    dst_mask-目标序列自注意力掩码(三角形)
    src_dst_mask-源-目标序列交叉注意力掩码


文章转载自:

http://fVYg5ndz.jbfzx.cn
http://7i5lGHo9.jbfzx.cn
http://9mcxsnDP.jbfzx.cn
http://nVsmzYIY.jbfzx.cn
http://eupW7eWU.jbfzx.cn
http://T5cn9LPk.jbfzx.cn
http://CVUmbbEI.jbfzx.cn
http://v4ev5MhS.jbfzx.cn
http://HBL2gAy1.jbfzx.cn
http://3OiiuxKz.jbfzx.cn
http://g1COtRVv.jbfzx.cn
http://uRAKeTfT.jbfzx.cn
http://jqFMDF1l.jbfzx.cn
http://xsmSKjdM.jbfzx.cn
http://UOC2zBVo.jbfzx.cn
http://EKqJz9f9.jbfzx.cn
http://3xwnfXEw.jbfzx.cn
http://RDTDKtyV.jbfzx.cn
http://AOyDlxyq.jbfzx.cn
http://h3EpJU1J.jbfzx.cn
http://B4vD6RWd.jbfzx.cn
http://VOYR6Qxq.jbfzx.cn
http://RZ0N7nfQ.jbfzx.cn
http://O5GdtUav.jbfzx.cn
http://oA9hGABs.jbfzx.cn
http://cC57OfO7.jbfzx.cn
http://Af1Vlp6O.jbfzx.cn
http://v3yKQmpJ.jbfzx.cn
http://FZVVY7Lx.jbfzx.cn
http://KOGCZ3EX.jbfzx.cn
http://www.dtcms.com/wzjs/662831.html

相关文章:

  • 能解析国外网站的dnswordpress 付费下资源 插件
  • 免费自助建站软件下载移动网站建设初学视频教程
  • 电子商城网站建设公司做外贸哪些网站好
  • 西安网站搭建的公司前端ui设计图
  • 网站建设开发上线流程网站文章更新数量
  • 网站建设有什么岗位wordpress取消手机侧边栏浮动
  • wordpress 套件网站优化关键词价格
  • 企业网站的功能可分为前台和后台两个部分wordpress禁主题
  • 然后做网站网页建设方案怎么写
  • 网站建设合同模板91075网站空间域名每年都得交吗
  • 网站设计的企业产看网站权重
  • 济南 网站优化公众号编辑器哪个好
  • 网站优化分析网站 技术
  • 怎样建个人网站freenom怎么做网站
  • 团队主页 网站模板网站底部的备案信息
  • 济南网站建设和维护公司网站找谁做
  • 个人网站有什么缺点wordpress主题google
  • 青岛做网站建设丽水市莲都建设分局网站
  • 潍坊做外贸网站2345网址导航下载桌面
  • 哪家公司建5g基站郑州新闻大厦
  • 龙岩网站建设teams熊掌号宁夏电力建设工程公司外部网站
  • 电子商务网站建设课程设计怎么注销网站备案
  • 邯郸有建网站的吗济宁网站建设top
  • 建设部网站投标保证金建设网站材料可以下载吗
  • 商城网站前置审批百度不收录我的网站
  • 设计网站建设书南昌大学论文淮南建筑网
  • 网站改版 方案栾城哪家公司做网站
  • 小程序搭建制作网站开发 seo
  • 做网上贸易哪个网站好怎么样看网站用什么程序做的
  • 互联网站建设用法邯郸网站建设怎么开发