当前位置：首页 > news >正文

transformer 相对位置编码详解

news 2025/9/13 16:17:28

问题1 请说下transgormer 的相对位置编码

好的，我们来系统梳理一下 Transformer 的相对位置编码（Relative Positional Encoding, RPE）。

1. 背景

原始的 Transformer（Vaswani et al., 2017）用了 绝对位置编码：

给定序列中第 $i$ 个 token 的位置 $i$ ，
通过固定的正余弦函数 $sin⁡,cos⁡\sin, \cos$ 或可学习向量，映射到一个 embedding，
这个 embedding 加到输入词向量上，提供位置信息。

但是绝对位置编码有两个问题：

不自然地绑定了位置编号，序列平移后模型不具备平移不变性。
无法自然推广到更长的序列。

因此引入了 相对位置编码。

2. 相对位置编码的核心思想

核心：注意力计算时，不关心 token 的绝对位置，而是关心 query 和 key 的 相对距离 $k - j$ 。

标准 self-attention 的打分是：

$\text{score}(q_i, k_j) = \frac{q_i \cdot k_j}{\sqrt{d}}$

加上相对位置编码后，可以改为：

$\text{score}(q_i, k_j) = \frac{q_i \cdot k_j}{\sqrt{d}} + q_i \cdot r_{i-j} \quad \text{或} \quad k_j \cdot r_{i-j}$

其中 $r_{i-j}$ 是和 相对位置差值 $i - j$ 绑定的向量。

如果 $i - j = 0$ ，表示当前词自己。
如果 $i - j = 1$ ，表示 key 比 query 晚一个位置。
以此类推。

这样模型就能感知 相邻词的关系，而不是单纯依赖绝对坐标。

3. 典型实现方式

(1) Transformer-XL 相对位置编码

Transformer-XL (Dai et al., 2019) 的公式是：

$\text{score}(q_i, k_j) = \frac{q_i \cdot k_j + q_i \cdot r_{i-j} + u \cdot k_j + v \cdot r_{i-j}}{\sqrt{d}}$

其中：

$q_i$ 是 query， $k_j$ 是 key；
$r_{i-j}$ 是相对位置 embedding；
$u, v$ 是全局可学习向量。

这样在打分时，模型同时考虑了内容 (content) 和位置 (position)。

(2) T5 的相对位置偏置 (Relative Position Bias)

T5 (Raffel et al., 2020) 没有对 embedding 向量做运算，而是直接在 attention score 矩阵上加一个 偏置项：

$\text{score}(q_i, k_j) = \frac{q_i \cdot k_j}{\sqrt{d}} + b_{i-j}$

其中 $b_{i-j}$ 是根据相对距离 bucket 化的可学习参数。

例如把「距离=1,2,3,…」映射到少量 bucket，避免参数过多。
在长序列时效果非常好。

(3) Rotary Position Embedding (RoPE, GPT-NeoX, LLaMA)

RoPE 的做法更优雅：直接在 向量空间里通过旋转编码相对位置信息。

定义旋转矩阵 $R(θ)R(\theta)$ ，让：

$q_i = R(i)\, q, \quad k_j = R(j)\, k$

那么：

$q_i \cdot k_j = q \cdot R(i-j)\,k$

也就是说，绝对位置差转化为了向量旋转的相对差。

计算量不增加，
并且天然支持相对位置，
是现在很多大模型（LLaMA、ChatGLM）的主流方案。

4. 小结

相对位置编码的关键点：

不直接依赖 token 的绝对坐标，而是利用 query-key 的 相对距离。
常见三种形式：
- Transformer-XL：内容 + 相对位置 embedding；
- T5：attention score 上加 相对位置偏置；
- RoPE：向量空间旋转，天然编码相对位置信息。

要不要我给你画一个 相对位置偏置矩阵示意图，直观展示每个 query 如何对不同距离的 key 加不同偏置？

问题2 给几个词向量举例

好，我们直接用几个小的 词向量例子 来说明相对位置编码的作用。
为了直观，我用低维度（2维）表示词向量。

1. 没有位置编码的情况

假设有三个 token：

token1（“I”） → 向量 $x_1 = [1, 0]$
token2（“like”） → 向量 $x_2 = [0, 1]$
token3（“apples”） → 向量 $x_3 = [1, 1]$

标准 self-attention 里，打分公式是：

$\text{score}(i,j) = q_i \cdot k_j$

如果只用词向量，模型分不清「I like apples」和「apples like I」，因为它们的向量集合是一样的。

2. 绝对位置编码

给每个位置加一个位置向量，比如：

pos1 → $[0.1, 0.2]$
pos2 → $[0.2, 0.3]$
pos3 → $[0.3, 0.4]$

新的输入是：

$x_1' = [1,0] + [0.1,0.2] = [1.1, 0.2]$
$x_2' = [0,1] + [0.2,0.3] = [0.2, 1.3]$
$x_3' = [1,1] + [0.3,0.4] = [1.3, 1.4]$

这样模型能区分「I」在第1个位置 vs 第3个位置，但还是死记绝对坐标。

3. 相对位置编码（T5式的偏置举例）

假设我们定义：

相对距离 = 0 → 偏置 = 0
相对距离 = ±1 → 偏置 = +2
相对距离 ≥ 2 → 偏置 = -1

那么在计算 attention score 时：

token1 (位置1) 对 token2 (位置2)，距离 = +1 → 加偏置 +2
token1 对 token3，距离 = +2 → 加偏置 -1

这样模型会特别「偏爱」相邻的词，更符合语言结构。

举例：

$\text{score}(1,2) = q_1 \cdot k_2 + 2$

$\text{score}(1,3) = q_1 \cdot k_3 - 1$

4. 相对位置编码（RoPE举例）

假设 query/key 本来是：

$q_1 = [1,0], q_2 = [0,1]$
$k_1 = [1,0], k_2 = [0,1]$

RoPE 会对每个位置 $i$ 做旋转：

位置1：旋转角度 $θ\theta$
位置2：旋转角度 $2θ2\theta$

所以：

$q1=R(θ)[1,0]=[cos⁡θ,sin⁡θ]q_1 = R(\theta)[1,0] = [\cos\theta, \sin\theta]$
$q2=R(2θ)[0,1]=[−sin⁡2θ,cos⁡2θ]q_2 = R(2\theta)[0,1] = [-\sin 2\theta, \cos 2\theta]$