二十三、Transformer架构详解
二十三、Transformer架构详解
23.1 Transformer架构整体概述
23.1.1 Transformer的革命性意义
Transformer架构于2017年由Vaswani等人在《Attention Is All You Need》论文中提出,彻底改变了序列建模的范式。其核心创新在于:
完全基于注意力机制:摒弃了传统的循环和卷积结构,仅使用自注意力机制和前馈神经网络。
并行计算优势:与RNN的顺序处理不同,Transformer可以并行处理整个序列,大幅提升训练效率。
长程依赖建模:自注意力机制能够直接捕捉序列中任意两个位置之间的依赖关系。
23.1.2 整体架构设计
Transformer采用编码器-解码器架构,但其内部结构与传统的RNN-based Seq2Seq有本质区别:
编码器:由N个相同的层堆叠而成,每层包含:
- 多头自注意力机制
- 前馈神经网络
- 残差连接和层归一化
解码器:同样由N个相同的层堆叠,每层包含:
- 掩码多头自注意力机制
- 编码器-解码器注意力机制</
