transformer的基本结构和工作原理,多头自注意力机制的作用是什么,为什么使用位置编码?
Transformer 架构是现代大模型的基石,下面我从结构、原理、多头自注意力、位置编码四个方面做一个清晰的解释。
🌐 一、Transformer 的基本结构(以原始的 Encoder-Decoder 架构为例)
Transformer 由 编码器(Encoder) 和 解码器(Decoder) 两部分组成:
🔷 编码器(Encoder)
每个 Encoder Block 包含两层:
- 多头自注意力层(Multi-Head Self-Attention)
- 前馈神经网络(Feed Forward Network, FFN)
加上:
- 残差连接(Residual Connection)
- 层归一化(LayerNorm)
残差连接的核心思想是:在每一层中,输入信号与当前层的输出信号进行相加。这种做法有助于让神经网络学习到更有效的表示,特别是在网络层数较多时&#x