当前位置：首页 > news >正文

Transformer 架构学习笔记

news 2025/7/10 23:36:44

文章目录

- 一、Transformer 的核心原理
- - 1. 整体架构
  - 2. 关键组件
- 二、Transformer 成功的关键因素
- - 1. 全局上下文建模能力
  - 2. 并行计算优势
  - 3. 可扩展性强
  - 4. 预训练范式适配
  - 5. 硬件效率优化
- 三、与 RNN/CNN 的对比
- 四、典型应用
- - 1. 文本生成（GPT 系列）：
  - 2. 机器翻译（Google 翻译）：
  - 3. 文本理解（BERT）：
  - 4. 多模态任务（CLIP、DALL·E）：
- 五、局限性及改进方向
- - 1. 计算复杂度高：
  - 2. 位置编码泛化性：
  - 3. 显存消耗大：
- 六、总结

Transformer 是一种基于自注意力机制的深度学习模型架构，最初由 Google 在 2017 年提出（论文《Attention Is All You Need》）。它彻底改变了自然语言处理（NLP）领域，并成为 GPT、BERT 等大模型的基础架构。

一、Transformer 的核心原理

1. 整体架构

Transformer 由编码器（Encoder）和解码器（Decoder）堆叠组成，但实际应用中可根据任务调整：

编码器： 处理输入序列（如文本），提取上下文特征。

解码器： 基于编码器输出生成目标序列（如翻译结果）。

基于编码器、解码器的Transformer架构

2. 关键组件

（1）自注意力（Self-Attention）：

计算序列中每个位置与其他位置的关联权重，捕捉长距离依赖关系。
公式：
$\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

其中 Q（查询）、K（键）、V（值）由输入向量线性变换得到。

（2）多头注意力（Multi-Head Attention）：

将输入拆分为多个子空间（如语法、语义），并行计算后拼接结果。
增强模型捕捉不同类型特征的能力。

（3）位置编码（Positional Encoding）：

通过正弦函数或可学习参数，为无顺序的注意力机制注入位置信息。
示例（正弦编码）：

$PE_{(pos,2i)} = \sin(pos/10000^{2i/d_{model}})$

（4）前馈神经网络（FFN）：

对注意力输出进行非线性变换（通常为两层全连接 + ReLU）。

（5）残差连接 & 层归一化：

残差连接缓解梯度消失，层归一化加速训练收敛。

二、Transformer 成功的关键因素

1. 全局上下文建模能力

自注意力机制直接建立任意两个位置的关联，解决了 RNN 的长距离依赖问题。

例如在句子 “The animal didn’t cross the street because it was too tired” 中，能清晰捕捉 “it” 指代 “animal”。

2. 并行计算优势

所有位置同时处理，训练速度比 RNN 快 5-10 倍，尤其适合 GPU/TPU 加速。

3. 可扩展性强

堆叠更多层或增加头数即可扩展模型容量（如 GPT-3 有 96 层、1750 亿参数）。

4. 预训练范式适配

支持掩码语言建模（BERT）或自回归预测（GPT），利用海量无标注数据学习通用表征。

5. 硬件效率优化

纯矩阵运算充分利用 GPU 并行能力，训练效率比 CNN/RNN 高 30% 以上。

三、与 RNN/CNN 的对比

特性	Transformer	RNN	CNN
长距离依赖	全局捕捉（O(1) 步）	逐步传递（O(n) 步）	局部窗口受限
并行性	完全并行	序列顺序处理	部分并行
计算复杂度	O(n²)（通过稀疏注意力优化）	O(n)	O(k·n)（k为卷积核大小）
显存占用	较高（需存储注意力矩阵）	较低	中等

四、典型应用

1. 文本生成（GPT 系列）：

自回归生成连贯文章。

2. 机器翻译（Google 翻译）：

编码器-解码器联合学习。

3. 文本理解（BERT）：

通过掩码预测学习双向表征。

4. 多模态任务（CLIP、DALL·E）：

处理文本-图像联合表征。

五、局限性及改进方向

1. 计算复杂度高：

序列长度 n 的平方级复杂度（O(n²)），长文本处理受限。

解决方案：稀疏注意力（如 Longformer）、分块计算（Reformer）。

2. 位置编码泛化性：

训练和推理的序列长度需一致。

改进：相对位置编码（如 T5）、旋转位置编码（RoPE）。

3. 显存消耗大：

存储注意力矩阵占用显存。

优化：梯度检查点、混合精度训练。

六、总结

Transformer 的成功源于注意力机制的创新、硬件友好的设计和大规模预训练范式的结合。它不仅重塑了 NLP 领域，还推动了计算机视觉（ViT）、语音处理（Whisper）等多模态模型的发展，成为现代人工智能的核心架构之一。

http://www.dtcms.com/a/210972.html

相关文章：

楼宇自控成建筑领域关键技术，为实现建筑碳中和注入强劲技术动能

AI硬件革命：OpenAI“伴侣设备”——从概念到亿级市场的生态重构

uniapp-商城-66-shop（2-品牌信息显示，数据库读取的异步操作放到vuex actions）

数据结构与算法——链式二叉树

keycloak获取用户信息(go实现获取keycloak用户信息)

QGIS新手教程：两种方法创建点图层（手动添加 + 表格导入），支持经纬度定位与查找

深度学习：从入门到实践（深度剖析版）

构建Harbor私有镜像库

LangGraph：人工干预与自动化结合

【Matlab】雷达图/蛛网图

HarmonyOS实战：高德地图定位功能完整流程详解

Shell三剑客之awk

DeepSeek智能对话助手项目

行列式的线性性质（仅限于单一行的加法拆分）

Python 操作MySQL数据库

每日leetcode（昨天赶飞机没做，今天补）

Java序列化与反序列化详细介绍

QT写槽函数的注意事项

js实现音频的录制

LangGraph-agent-天气助手

地下综合管廊 3D 可视化平台

微信小程序数据接收

uniapp-商城-67-shop（3-品牌信息显示，弹窗显示完整品牌信息，弹窗拨打电话、地图定位）

安卓11 不带谷歌包默认桌面布局

HarmonyOS赋能套件介绍

聊一聊手动测试与探索性测试的区别

mysql统计数据库大小

从Embedding到多模态检索：AI知识库构建的进阶路线图

2021-10-28 C++判断完全平方数

学习STC51单片机14（芯片为STC89C52RC）