当前位置: 首页 > news >正文

人工智能学习:Transformer结构中的编码器层(Encoder Layer)

Transformer结构中的编码器层(Encoder Layer)

一、编码器层介绍

  • 概念

    编码器层(Encoder Layer)是Transformer编码器的基本构建单元,它重复堆叠形成整个编码器,负责逐步提取输入序列的特征。每个编码器层由两个核心子层组成:

    • 多头自注意力机制(Multi-Head Self-Attention):用于捕捉输入序列中每个位置与其他位置的关系。
    • 前馈全连接层(Feed-Forward Neural Network, FFN):用于对每个位置的表示进行非线性变换。

    每个子层后都有残差连接(Residual Connection)和层归一化(Layer Normalization),以增强模型的训练稳定性和性能。

  • 结构/工作流程

    • 输入:

      • 每个编码器层的输入是上一层编码器层的输出,或者对于第一层编码器层来说,是输入嵌入向量加上位置编码向量,形状为 [batch_size, seq_len, d_model]
    • 多头自注意力机制

      • 将输入x传递给多头自注意力层,得到输出Attention(x)​。
      • 多头自注意力层会捕捉输入序列中各个token之间的依赖关系,每个注意力头关注不同的特征,然后将多个头的输出拼接。
      • Q, K, V三个矩阵都来自于相同的输入x,这是“自”注意力的含义。
    • 残差连接与层归一化

      • 将多头自注意力的输入x与输出Attention(x)​ 相加,形成残差连接:

        ​ x+Attention(x)​

      • 对残差连接的结果进行层归一化,得到第一部分的输出:

        ​ LayerNorm(x+Attention(x))​

    • 前馈全连接层

      • 将经过残差连接和层归一化的输出传递给前馈全连接网络,得到输出FFN(x)​。
      • 前馈全连接网络会对每个token的表示进行非线性变换,并提取更高级的特征。
    • 残差连接与层归一化

      • 将前馈全连接网络的输入(即上一层的输出)与输出FFN(x)相加,形成残差连接:

        ​ LayerNorm(x+Attention(x))+FFN(x)​

      • 对残差连接的结果进行层归一化,得到第二部分的输出,也是编码器层的最终输出:

        ​ LayerNorm(LayerNorm(x+Attention(x))+FFN(x))

    • 输出:


文章转载自:

http://xTesHG4d.Lwtfr.cn
http://4bRAcz1y.Lwtfr.cn
http://zOg26klX.Lwtfr.cn
http://3JDFrg57.Lwtfr.cn
http://IivD0bOT.Lwtfr.cn
http://ykBQcuPT.Lwtfr.cn
http://HKZDMe3b.Lwtfr.cn
http://cd7L7xeX.Lwtfr.cn
http://TUJg4K6T.Lwtfr.cn
http://TQzf2ZXU.Lwtfr.cn
http://ZQdffsPR.Lwtfr.cn
http://8F7vIzG3.Lwtfr.cn
http://LYTO97Jl.Lwtfr.cn
http://I4voonzj.Lwtfr.cn
http://DYLDbo0B.Lwtfr.cn
http://75uea5bi.Lwtfr.cn
http://pmLgzyde.Lwtfr.cn
http://los6mX4I.Lwtfr.cn
http://nG5OpbGJ.Lwtfr.cn
http://DwxtvxCS.Lwtfr.cn
http://HOowScmJ.Lwtfr.cn
http://8Jnvn3sz.Lwtfr.cn
http://Txj9f3Cl.Lwtfr.cn
http://IuNKIJ9N.Lwtfr.cn
http://tyCJo5SE.Lwtfr.cn
http://SBdHqpgK.Lwtfr.cn
http://XibemL0N.Lwtfr.cn
http://RUW4gI7E.Lwtfr.cn
http://XbmJECvH.Lwtfr.cn
http://zcZzBtnO.Lwtfr.cn
http://www.dtcms.com/a/379010.html

相关文章:

  • RISCV中PLIC和AIA的KVM中断处理
  • 掌握梯度提升:构建强大的机器学习模型介绍
  • 全球智能电网AI加速卡市场规模到2031年将达20216百万美元
  • springbook3整合Swagger
  • LMS 算法:抗量子时代的「安全签名工具」
  • CUDA中thrust::device_vector使用详解
  • Python学习-day8 元组tuple
  • 2025主流大模型核心信息
  • skywalking定位慢接口调用链路的使用笔记
  • LeetCode刷题记录----739.每日温度(Medium)
  • eNSP华为无线网测试卷:AC+AP,旁挂+直连
  • 开源多模态OpenFlamingo横空出世,基于Flamingo架构实现图像文本自由对话,重塑人机交互未来
  • 光路科技将携工控四大产品亮相工博会,展示工业自动化新成果
  • matlab实现相控超声波成像仿真
  • 【C】Linux 内核“第一宏”:container_of
  • Dinky 是一个开箱即用的一站式实时计算平台
  • Vue3内置组件Teleport/Suspense
  • Python打印格式化完全指南:掌握分隔符与行结尾符的高级应用
  • 实体不相互完全裁剪,请检查您的输入
  • 分数阶傅里叶变换(FRFT)的MATLAB实现
  • ARM (6) - I.MX6ULL 汇编点灯迁移至 C 语言 + SDK 移植与 BSP 工程搭建
  • unsloth微调gemma3图文代码简析
  • 【ECharts ✨】ECharts 自适应图表布局:适配不同屏幕尺寸,提升用户体验!
  • wpf依赖注入驱动的 MVVM实现(含免费源代码demo)
  • Python的f格式
  • 技术视界 | 末端执行器:机器人的“手”,如何赋予机器以生命?
  • 从零开始使用 axum-server 构建 HTTP/HTTPS 服务
  • 简直有毒!索伯ACL撕裂,雷霆四年报销三个新秀!
  • 从 “模板” 到 “场景”,用 C++ 磨透拓扑排序的实战逻辑
  • Kubernetes架构-原理-组件学习总结