当前位置：首页 > news >正文

人工智能学习：Transformer结构中的编码器层（Encoder Layer）

news 2025/9/12 9:16:20

Transformer结构中的编码器层（Encoder Layer）

一、编码器层介绍

概念

编码器层（Encoder Layer）是Transformer编码器的基本构建单元，它重复堆叠形成整个编码器，负责逐步提取输入序列的特征。每个编码器层由两个核心子层组成：
- 多头自注意力机制（Multi-Head Self-Attention）：用于捕捉输入序列中每个位置与其他位置的关系。
- 前馈全连接层（Feed-Forward Neural Network, FFN）：用于对每个位置的表示进行非线性变换。
每个子层后都有残差连接（Residual Connection）和层归一化（Layer Normalization），以增强模型的训练稳定性和性能。
结构/工作流程
- 输入：
  - 每个编码器层的输入是上一层编码器层的输出，或者对于第一层编码器层来说，是输入嵌入向量加上位置编码向量，形状为 [batch_size, seq_len, d_model]。
- 多头自注意力机制：
  - 将输入x传递给多头自注意力层，得到输出Attention(x)。
  - 多头自注意力层会捕捉输入序列中各个token之间的依赖关系，每个注意力头关注不同的特征，然后将多个头的输出拼接。
  - Q, K, V三个矩阵都来自于相同的输入x，这是“自”注意力的含义。
- 残差连接与层归一化：
  - 将多头自注意力的输入x与输出Attention(x) 相加，形成残差连接：
    
    x+Attention(x)
  - 对残差连接的结果进行层归一化，得到第一部分的输出:
    
    LayerNorm(x+Attention(x))
- 前馈全连接层：
  - 将经过残差连接和层归一化的输出传递给前馈全连接网络，得到输出FFN(x)。
  - 前馈全连接网络会对每个token的表示进行非线性变换，并提取更高级的特征。
- 残差连接与层归一化：
  - 将前馈全连接网络的输入(即上一层的输出)与输出FFN(x)相加，形成残差连接：
    
    LayerNorm(x+Attention(x))+FFN(x)
  - 对残差连接的结果进行层归一化，得到第二部分的输出，也是编码器层的最终输出：
    
    LayerNorm(LayerNorm(x+Attention(x))+FFN(x))
- 输出:

文章转载自：

http://xTesHG4d.Lwtfr.cn
http://4bRAcz1y.Lwtfr.cn
http://zOg26klX.Lwtfr.cn
http://3JDFrg57.Lwtfr.cn
http://IivD0bOT.Lwtfr.cn
http://ykBQcuPT.Lwtfr.cn
http://HKZDMe3b.Lwtfr.cn
http://cd7L7xeX.Lwtfr.cn
http://TUJg4K6T.Lwtfr.cn
http://TQzf2ZXU.Lwtfr.cn
http://ZQdffsPR.Lwtfr.cn
http://8F7vIzG3.Lwtfr.cn
http://LYTO97Jl.Lwtfr.cn
http://I4voonzj.Lwtfr.cn
http://DYLDbo0B.Lwtfr.cn
http://75uea5bi.Lwtfr.cn
http://pmLgzyde.Lwtfr.cn
http://los6mX4I.Lwtfr.cn
http://nG5OpbGJ.Lwtfr.cn
http://DwxtvxCS.Lwtfr.cn
http://HOowScmJ.Lwtfr.cn
http://8Jnvn3sz.Lwtfr.cn
http://Txj9f3Cl.Lwtfr.cn
http://IuNKIJ9N.Lwtfr.cn
http://tyCJo5SE.Lwtfr.cn
http://SBdHqpgK.Lwtfr.cn
http://XibemL0N.Lwtfr.cn
http://RUW4gI7E.Lwtfr.cn
http://XbmJECvH.Lwtfr.cn
http://zcZzBtnO.Lwtfr.cn

http://www.dtcms.com/a/379010.html

相关文章：

RISCV中PLIC和AIA的KVM中断处理

掌握梯度提升：构建强大的机器学习模型介绍

全球智能电网AI加速卡市场规模到2031年将达20216百万美元

springbook3整合Swagger

LMS 算法：抗量子时代的「安全签名工具」

CUDA中thrust::device_vector使用详解

Python学习-day8 元组tuple

2025主流大模型核心信息

skywalking定位慢接口调用链路的使用笔记

LeetCode刷题记录----739.每日温度（Medium）

eNSP华为无线网测试卷：AC+AP，旁挂+直连

开源多模态OpenFlamingo横空出世，基于Flamingo架构实现图像文本自由对话，重塑人机交互未来

光路科技将携工控四大产品亮相工博会，展示工业自动化新成果

matlab实现相控超声波成像仿真

【C】Linux 内核“第一宏”：container_of

Dinky 是一个开箱即用的一站式实时计算平台

Vue3内置组件Teleport/Suspense

Python打印格式化完全指南：掌握分隔符与行结尾符的高级应用

实体不相互完全裁剪,请检查您的输入

分数阶傅里叶变换(FRFT)的MATLAB实现

ARM (6) - I.MX6ULL 汇编点灯迁移至 C 语言 + SDK 移植与 BSP 工程搭建

unsloth微调gemma3图文代码简析

【ECharts ✨】ECharts 自适应图表布局：适配不同屏幕尺寸，提升用户体验！

wpf依赖注入驱动的 MVVM实现（含免费源代码demo）

Python的f格式

技术视界 | 末端执行器：机器人的“手”，如何赋予机器以生命？

从零开始使用 axum-server 构建 HTTP/HTTPS 服务

简直有毒！索伯ACL撕裂，雷霆四年报销三个新秀！

从 “模板” 到 “场景”，用 C++ 磨透拓扑排序的实战逻辑

Kubernetes架构-原理-组件学习总结