当前位置: 首页 > wzjs >正文

毕业设计购物网站开发的意义计算机网页制作工具

毕业设计购物网站开发的意义,计算机网页制作工具,成都做小程序哪个服务最好,西安哪里找做网站公司Encoder Layer 论文地址 https://arxiv.org/pdf/1706.03762 Encoder层介绍 Encoder层是Transformer编码器的核心组件,由多头自注意力和前馈神经网络两个子层构成。每个子层都包含残差连接(Residual Connection)和层归一化(Layer N…

Encoder Layer

  • 论文地址

    https://arxiv.org/pdf/1706.03762

Encoder层介绍

  • Encoder层是Transformer编码器的核心组件,由多头自注意力和前馈神经网络两个子层构成。每个子层都包含残差连接(Residual Connection)和层归一化(Layer Normalization),有效缓解梯度消失问题并加速训练。

    image-20250428170531073

    今天这里实现的是上图中蓝色框中的单层EncoderLayer,不包含 embedding和位置编码

    主要处理流程:

    1. 多头自注意力机制:建立序列内部元素之间的依赖关系
    2. 前馈神经网络:进行非线性特征变换
    3. 残差连接 + 层归一化:在两个子层后各执行一次
    4. Dropout:最终输出前进行随机失活

数学表达

  • 子层处理流程公式化表示:
    LayerOutput = LayerNorm ( x + Sublayer ( x ) ) \text{LayerOutput} = \text{LayerNorm}(x + \text{Sublayer}(x)) LayerOutput=LayerNorm(x+Sublayer(x))

    对于Encoder层具体展开:
    z = LayerNorm ( x + MultiHeadAttention ( x ) ) o u t = LayerNorm ( z + FeedForward ( z ) ) \begin{aligned} z &= \text{LayerNorm}(x + \text{MultiHeadAttention}(x)) \\ out &= \text{LayerNorm}(z + \text{FeedForward}(z)) \end{aligned} zout=LayerNorm(x+MultiHeadAttention(x))=LayerNorm(z+FeedForward(z))


代码实现

  • 其他层的实现

    层名链接
    PositionEncodinghttps://blog.csdn.net/hbkybkzw/article/details/147431820
    calculate_attentionhttps://blog.csdn.net/hbkybkzw/article/details/147462845
    MultiHeadAttentionhttps://blog.csdn.net/hbkybkzw/article/details/147490387
    FeedForwardhttps://blog.csdn.net/hbkybkzw/article/details/147515883
    LayerNormhttps://blog.csdn.net/hbkybkzw/article/details/147516529

    下面统一在before.py中导入

  • 实现单层的encoder层

    import torch 
    from torch import nnfrom before import PositionEncoding,calculate_attention,MultiHeadAttention,FeedForward,LayerNormclass EncoderLayer(nn.Module):"""Transformer编码器层"""def __init__(self, n_heads, d_model, d_ff, dropout_prob=0.1):super(EncoderLayer, self).__init__()self.self_multi_head_att = MultiHeadAttention(n_heads, d_model, dropout_prob)self.ffn = FeedForward(d_model, d_ff, dropout_prob)self.norm1 = LayerNorm(d_model)self.norm2 = LayerNorm(d_model)self.dropout = nn.Dropout(dropout_prob)def forward(self, x, mask=None):# 自注意力子层_x = x  # 原始输入保存用于残差连接att_out = self.self_multi_head_att(x, x, x, mask)att_out += _x  # 残差连接att_out = self.norm1(att_out)  # 层归一化# 前馈子层_x = att_outffn_out = self.ffn(att_out) ffn_out += _x  # 残差连接ffn_out = self.norm2(ffn_out)  # 层归一化return self.dropout(ffn_out)  # 最终输出
    
  • 维度变化

    处理阶段张量形状示例
    输入数据[batch_size, seq_len, d_model]
    自注意力输出(不改变维度)[batch_size, seq_len, d_model]
    残差连接+层归一化[batch_size, seq_len, d_model]
    前馈网络输出(不改变维度)[batch_size, seq_len, d_model]
    最终输出[batch_size, seq_len, d_model]

使用示例

  • 测试用例

    if __name__ == "__main__":# 模拟输入:batch_size=4, 序列长度100, 维度512x = torch.randn(4, 100, 512)# 实例化编码器层:8头注意力,512维,前馈层2048维,10% dropoutencoder_layer = EncoderLayer(n_heads=8, d_model=512, d_ff=2048, dropout_prob=0.1)# 前向传播out = encoder_layer(x, mask=None)print("Input shape:", x.shape)    # torch.Size([4, 100, 512])print("Output shape:", out.shape) # torch.Size([4, 100, 512])
    

http://www.dtcms.com/wzjs/783725.html

相关文章:

  • 神华公司两学一做网站wordpress内容页友情链接
  • 做美妆网站的关键词seo网络营销案例分析
  • 广州网站优化排名推广wordpress 首页视频
  • 苏州市相城区建设局网站把名字设计成logo
  • 在百度做推广需要网站吗广州网站开发就业培训课程
  • 免费微网站案例怎么根据别人的网站做自己的网站
  • 包装设计网站有哪些什么语言做网站好
  • 某网站建设策划方案网页制作布局模板
  • 江苏网站建设公司114做网站
  • 六师五家渠市建设局网站网站修改关键词不收录
  • 南岗哈尔滨网站建设北京高端网站公司哪家好
  • 济南外贸网站建站石家庄免费自助建站模板
  • dedecms网站空白创一个公司要多少钱
  • setnet科技网站建设做我姓什么的网站
  • 多媒体资源库网站建设网站建设标准依据
  • 营销网站建设解决方案有哪些做分析图用的地图网站
  • 网站设计行业吃香么产品免费推广平台有哪些
  • 云南省建设学校网站如何访问国外网站
  • 免费网站建设专业服务平台企业微站系统
  • 怎么做淘宝客网站赚钱吗网站后台有显示前台没有
  • 双流建设局网站自适应wordpress模板
  • 网站建设覀金手指科杰深圳游戏网站开发
  • 深圳网站建设哪个好什么是微网站
  • 英文 edm营销 的网站 与 工具网站站长英文
  • 在百度备案网站wordpress防止数据库注入
  • 企业网站数据库设计表中国电商排名前十名
  • 禹顺生态建设有限公司网站七牛 wordpress插件
  • 公司网站数据分析公司从零开始学做网站 网站
  • 哪个网站可以找题目给小孩做做汽配的网站
  • wordpress加cnzz统计在那里加如何给网站做外部优化