当前位置：首页 > news >正文

Transformer：从自注意力到大模型时代的核心基石

news 2025/10/24 8:11:47

Transformer：从自注意力到大模型时代的核心基石

2017 年，Vaswani 在论文《Attention is All You Need》中提出 Transformer，直接革了循环神经网络（RNN / LSTM / GRU）和卷积模型（CNN）在序列任务的统治地位。如今，Transformer 已经成为 GPT、BERT、ChatGPT、ViT、Stable Diffusion、SAM 等顶级模型的核心结构，它不仅改变了 NLP，也正在改变整个 AI 世界。

本文将通过通俗可视化方式，从原理到结构再到应用，全流程深入讲清 Transformer —— 保证看完你能“真正理解”它，而不是只记住一句模板：Input → Embedding → Multi-Head Attention → FeedForward → N层堆叠。

✅ 一、为什么需要 Transformer？

📌 RNN/LSTM 的两大致命痛点

模型	主要问题
RNN	难并行、长依赖困难（梯度消失/爆炸）
LSTM/GRU	改进但仍存在长距离信息衰减问题
CNN	局部感受野，难以抓全局关系

一句话总结：

RNN 记得远处的东西很费力，CNN 看全局要堆很深，而 Transformer 直接建立序列中任意两个位置的联系。

Transformer 通过 自注意力 Self-Attention 实现了：

✅ 完全并行训练
✅ 任意距离的长依赖建模
✅ 统一处理文本、图像、语音的能力

✅ 二、Transformer 总体结构

Transformer 是一个 Encoder-Decoder 框架：

输入序列 → Encoder(堆叠N层)↓中间语义↓
输出序列 ← Decoder(堆叠N层)

Encoder：理解输入
Decoder：根据输入生成输出（翻译、对话、摘要）

每一层 Encoder 的核心模块只有两个：

① Multi-Head Self-Attention
② Position-wise FeedForward

这也是 Transformer 快、准、强的关键。

✅ 三、核心机制：Self-Attention（自注意力）

Self-Attention 思想一句话：

在一句话中，每个词都可以关注句子里的其他词，从而获得全局语义。

举例：

输入句子：The cat sat on the mat

“cat”在理解时最相关的是“sat”和“mat”，而不是“the”
Self-Attention 就是让模型自动算出这种关联。

🧠 Self-Attention 计算过程

每个 token 输入三种向量：

向量	作用
Q（Query）	我要找什么
K（Key）	我有什么特征
V（Value）	具体要提取的信息

注意力公式：

Attention(Q,K,V) = Softmax( QKᵀ / √dₖ ) V

理解公式：

部分	含义
`QKᵀ`	匹配谁和谁相关
`√dₖ`	缩放，防梯度爆炸
`Softmax`	变成概率（权重）
`* V`	按权重加权求和（提取信息）

一句话总结：

Self-Attention = 关系匹配 + 权重分配 + 信息聚合

✅ 四、多头注意力 Multi-Head Attention

用 1 个注意力，模型只能“往一个方向看”
用 8 个注意力，模型能同时从 8 种语义角度分析句子，比如：

Head	注意信息
Head1	语法结构
Head2	名词依赖
Head3	语义关系
Head4	动词时态
...	...

多头注意力公式：

MultiHead(Q,K,V) = Concat(head₁,...,headₙ) Wₒ

这就是 Transformer 的“多视角理解能力”。

✅ 五、为什么 Transformer 无需循环？——位置编码 PE

Self-Attention 不像 RNN 有顺序，所以必须告诉模型：

“我是谁，我在句子中第几位”

因此加入 Positional Encoding：

PE(pos,2i)   = sin(pos/10000^(2i/d))
PE(pos,2i+1) = cos(pos/10000^(2i/d))

使得模型具有顺序感。

✅ 六、Transformer 的优势总结

能力	Transformer 评价
并行加速	✅ 训练速度远超 RNN/LSTM
长依赖建模	✅ 任意位置直接关联
语义捕获	✅ 多头注意力全局理解
结构扩展性	✅ 可以无限堆模型构成 LLM
通用性	✅ NLP/语音/图像全面通吃

一句话：