当前位置：首页 > news >正文

Transformer 模型详解：从输入到输出的全流程剖析

news 2025/11/3 6:36:03

一句话总结：
Transformer 是一种完全基于注意力机制（Attention）的深度学习架构，它让模型不再依赖循环结构（RNN），通过全局依赖捕获实现高效并行。

Transformer 的整体流程如下：

输入 → Encoder（编码器） → Decoder（解码器） → 输出

虽然 Encoder 和 Decoder 的层数对称，但：

Transformer 不直接处理原始文本，而是先将文本转换为向量形式。

将每个词映射到一个高维向量空间，例如 512 或 768 维：

"apple"  → [0.13, 0.59, 0.02, ...]
"orange" → [0.12, 0.56, 0.01, ...]

作用：把离散的文本转为连续的数值向量，便于计算语义距离。

Transformer 不像 RNN 那样有序处理序列，它是并行计算的，因此必须额外注入位置信息。

位置编码采用正弦和余弦函数形式：

[
PE_{(pos, 2i)} = sin(pos / 10000^{2i/d})
]
[
PE_{(pos, 2i+1)} = cos(pos / 10000^{2i/d})
]

简单说：它给每个词加上一个独特的“位置标签”，让模型能区分“我爱你”和“你爱我”。

注意力机制的核心思想是：

模型在处理某个词时，会自动关注和它最相关的其他词。

例如：

“我喜欢吃苹果，因为它很甜。”

在预测“甜”时，模型会把注意力集中在“苹果”上。

核心计算公式如下：

[
Attention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V
]

Softmax 的结果代表“每个词被关注的权重”。

Transformer 不止计算一次注意力，而是计算多个“头”：

Head₁: 注意语义关系
Head₂: 注意句法结构
Head₃: 注意情感线索
...

最后拼接多个头的输出再进行线性变换，让模型能从多个角度理解上下文。

虽然 Encoder 和 Decoder 看似对称，但用途完全不同。

模块	主要组成	功能
Encoder	自注意力 + 前馈网络	理解输入序列
Decoder	Masked 自注意力 + 跨注意力 + 前馈网络	基于输入生成输出

Encoder 的任务是提取语义特征，即“理解句子在说什么”。

Decoder 有两个注意力机制：

Decoder 最后的输出经过线性变换与 Softmax：

Linear → Softmax → 概率分布

例如模型要预测下一个词：

P("I") = 0.05  
P("love") = 0.89  
P("apple") = 0.04

概率最高的词被选为输出，然后进入下一轮生成，直到遇到 <EOS> 结束符。

阶段	模块	关键操作	结果
输入层	Embedding + 位置编码	文本 → 向量	含顺序信息的词向量
Encoder	多头自注意力 + 前馈网络	捕捉输入全局关系	输入语义特征
Decoder	Masked 注意力 + Encoder-Decoder 注意力	结合输入与上下文	生成输出序列
输出层	Linear + Softmax	转为词概率分布	输出结果