当前位置：首页 > news >正文

LLM笔记（三）位置编码（1）

news 2025/10/15 19:23:46

位置编码理论与应用

1. 位置编码如何解决置换不变性及其数学表现

在Transformer模型中，自注意力机制（Self-Attention）具有置换不变性（permutation invariance），这意味着对输入序列的词元（token）进行任意重排，输出的内容本质上保持不变（或仅是行的重排），导致模型无法感知词元的顺序。为了解决这一问题，**位置编码（Positional Encoding）**通过将位置信息融入输入序列，打破这种不变性，使模型能够区分词元的相对或绝对位置。

1.1 置换不变性的数学表现

置换不变性是自注意力机制无法捕捉位置信息的核心原因。让我们从数学角度分析：

自注意力机制的计算：
- 输入序列为 $[x_1, x_2, \dots, x_n]$ ，其中 $x_i \in \mathbb{R}^d$ 是第 $i$ 个词元的嵌入向量。
- 通过线性变换生成查询（Query）、键（Key）和值（Value）： $W_Q, \quad K = X W_K, \quad V = X W_V$ 其中 $W_Q, W_K, W_V$ 是可学习的权重矩阵。
- 注意力权重为： $\text{softmax}\left( \frac{Q K^T}{\sqrt{d_k}} \right)$ 输出为： $\text{Attention}(Q, K, V) = A V$
置换操作的影响：
- 假设对输入 $X$ 应用置换矩阵 $P$ （一个重排行的矩阵），置换后的输入为 $X^{'} = PX$ 。
- 置换后的查询、键和值变为： $\quad K' = P K, \quad V' = P V$
- 注意力权重变为： $\text{softmax}\left( \frac{Q' (K')^T}{\sqrt{d_k}} \right) = \text{softmax}\left( \frac{P Q K^T P^T}{\sqrt{d_k}} \right) = P A P^T$
- 输出为： $\text{Attention}(Q', K', V') = A' V' = P A P^T P V = P A V$
- 结果表明，置换后的输出 $P A V$ 是原始输出 $A V$ 的行重排，内容本质不变（即集合意义上等价）。这意味着自注意力机制无法区分 $X$ 和 $X^{'}$ 的顺序，仅依赖词元的内容。

1.2 位置编码如何解决置换不变性

位置编码通过将位置信息融入输入序列，打破置换不变性，使模型能够感知词元的位置。常见的实现方式有两种：绝对位置编码和相对位置编码。

1.2.1 绝对位置编码

原理：
- 为每个位置 $m$ 分配一个独特的位置编码向量 $p_m$ ，将其加到对应的词元嵌入 $x_m$ 上： $x_m' = x_m + p_m$ 输入序列变为： $X_{\text{new}} = [x_1 + p_1, x_2 + p_2, \dots, x_n + p_n]$
数学表现：
- 若对 $X_{\text{new}}$ 应用置换矩阵 $P$ ，置换后的输入为： $X_{\text{new}}' = P X_{\text{new}} = P (X + P_{\text{pos}})$ 其中 $P_{\text{pos}} = [p_1, p_2, \dots, p_n]$ 。
- 因为 $p_m$ 与位置绑定，置换后位置编码也会重排（如 $P_{\text{pos}}$ ），导致 $X_{\text{new}}' \neq X_{\text{new}}$ 。这使得注意力计算的结果不再仅仅是行的重排，模型能够感知位置差异。
例子：
- 三角函数位置编码（原Transformer）： $PE(\text{pos}, 2i) = \sin\left(\frac{\text{pos}}{10000^{2i / d}}\right), \quad PE(\text{pos}, 2i+1) = \cos\left(\frac{\text{pos}}{10000^{2i / d}}\right)$ 不同位置的编码向量具有独特的频率模式。
效果：
- 通过为每个词元添加位置标识，打破了置换不变性，模型可以区分不同位置的词元。

1.2.2 相对位置编码

原理：
- 直接在注意力机制中引入词元间的相对位置信息，通常通过修改注意力权重的计算方式。例如，在注意力分数中加入与相对位置 $i - j$ 相关的偏置项。
数学表现：
- 修改注意力分数计算： $a_{ij} = q_i^T k_j + q_i^T R_{i-j}$ 其中 $R_{i-j}$ 是相对位置 $i - j$ 的编码向量。
- 置换输入后，相对位置 $i - j$ 会随之改变，导致注意力权重 $A$ 的计算结果不同，输出不再是简单重排。
例子：
- Transformer-XL： $a_{ij} = q_i^T k_j + q_i^T R_{i-j} + u^T k_j + v^T R_{i-j}$ $R_{i-j}$ 使用正弦余弦函数生成，依赖相对距离。
效果：
- 相对位置编码直接捕捉词元间的相对距离或顺序，使模型对位置变化敏感。

1.3 数学分析：Taylor展开的视角

位置编码如何引入位置信息的数学本质可以通过Taylor展开分析。假设模型输出函数为 $f (X)$ ，加入位置编码后为 $\tilde{f}(X + P_{\text{pos}})$ 。对 $\tilde{f}$ 在 $X$ 处进行二阶Taylor展开：

$\tilde{f} \approx f + p_m^T \frac{\partial f}{\partial x_m} + p_n^T \frac{\partial f}{\partial x_n} + p_m^T \frac{\partial^2 f}{\partial x_m^2} p_m + p_n^T \frac{\partial^2 f}{\partial x_n^2} p_n + p_m^T \frac{\partial^2 f}{\partial x_m \partial x_n} p_n$

绝对位置信息：
- 前四项（ $p_m^T \frac{\partial f}{\partial x_m}, p_n^T \frac{\partial f}{\partial x_n}, p_m^T \frac{\partial^2 f}{\partial x_m^2} p_m, p_n^T \frac{\partial^2 f}{\partial x_n^2} p_n$ ）仅依赖单一位置的编码，反映了绝对位置的影响。
相对位置信息：
- 最后一项 $p_m^T \frac{\partial^2 f}{\partial x_m \partial x_n} p_n$ 涉及位置 $m$ 和 $n$ 的交互，反映了相对位置的影响。
意义：
- 绝对位置编码主要通过单位置项起作用，而相对位置编码通过交互项直接建模位置关系。

1.4 所有位置编码都是为了解决置换不变性吗？

位置编码的主要目的是解决置换不变性，但并非其唯一作用。不同的位置编码方法在实现这一目标的同时，还可能带来其他效果或改变模型行为：

是的，解决置换不变性是核心目标：
- 无论是绝对位置编码还是相对位置编码，其根本目的是让模型感知词元顺序，打破自注意力的对称性。
- 例如，三角函数编码、可训练编码、RoPE等都旨在引入位置依赖性。
除此之外的额外作用：
1. 外推性（Extrapolation）：
  - 定义：外推性是指模型在处理比训练时见过的序列更长的输入时，依然能够保持良好性能的能力。也就是说，模型能够"外推"到训练数据分布之外的序列长度。
  - 某些位置编码（如三角函数编码、相对位置编码）具有良好的外推性，能处理比训练时更长的序列。可训练位置编码则受限于预定义长度。
2. 计算效率：
  - 绝对位置编码（如可训练编码）增加存储需求，相对位置编码（如RoPE）可能增加注意力计算的开销。
3. 任务适应性：
  - 相对位置编码更适合自然语言处理任务，因为语言中相对顺序通常比绝对位置更重要（如句法关系）。
4. 模型表达能力：
  - 相对位置编码（如Transformer-XL）增强了对长距离依赖的捕捉能力；RoPE结合绝对和相对位置优势，提升线性注意力的性能。
5. 创新性设计：
  - 一些新型位置编码（如递归位置编码FLOATER）不仅解决顺序问题，还通过动态系统建模增强长序列处理能力。

1.5 总结

如何解决置换不变性：
- 位置编码通过引入位置信息打破自注意力的对称性。绝对位置编码为每个词元添加独特标识，相对位置编码直接建模词元间关系。
数学表现：
- 置换不变性体现为 $\text{Attention}(P X) = P \cdot \text{Attention}(X)$ 。位置编码使输入或注意力计算依赖位置，置换后结果不再等价。
- Taylor展开显示其包含绝对位置项和相对位置项。
是否只为置换不变性：
- 核心目标是解决置换不变性，但也带来外推性、效率、适应性等额外改变。

2. 注意力机制的查询与位置向量：理解它们的关系与作用过程

2.1 基础概念回顾

2.1.1 注意力机制的核心组件

注意力机制基于三种向量：查询(Query)向量、键(Key)向量和值(Value)向量。这些向量通过以下方式生成：

输入嵌入：每个词元首先被转换为嵌入向量 $x_i$
线性变换：通过权重矩阵将嵌入向量投影为查询、键和值
- 查询向量： $q_i = x_i W_Q$
- 键向量： $k_i = x_i W_K$
- 值向量： $v_i = x_i W_V$

2.1.2 位置编码的角色

位置编码为每个位置生成一个向量表示，使模型能够理解序列中词元的顺序。基本形式是：

对于位置 $p$ ，生成位置编码向量 $PE (p)$
将位置编码加到输入嵌入： $x_i + PE(i)$

2.2 位置向量与查询向量的关系

现在，让我解释位置向量如何影响查询向量，以及整个注意力计算过程。这里我将采用旋转位置编码(RoPE)作为例子，因为它最直接地展示了位置信息与查询/键向量的交互。

2.2.1 标准注意力机制中的作用过程

在标准的Transformer中（使用加性位置编码，如正弦位置编码），过程如下：

位置信息融入：
- 将位置编码加到输入嵌入： $\tilde{x}_i = x_i + PE(i)$
- 生成查询向量： $q_i = \tilde{x}_i W_Q = (x_i + PE(i)) W_Q$
- 生成键向量： $k_j = \tilde{x}_j W_K = (x_j + PE(j)) W_K$
注意力计算：
- 计算注意力分数： $a_{ij} = \frac{q_i \cdot k_j}{\sqrt{d_k}}$
- 应用softmax归一化： $\alpha_{ij} = \text{softmax}(a_{ij})$
- 加权求和值向量： $o_i = \sum_j \alpha_{ij} v_j$

在这个过程中，位置信息间接地影响了查询和键向量，从而影响注意力分数的计算。

2.2.2 RoPE中的作用过程

在旋转位置编码中，位置信息与查询和键向量的交互更加直接和明确：

位置旋转应用：
- 生成基础查询向量： $q_i = x_i W_Q$
- 应用位置旋转： $\hat{q}_i = R_{\theta, i} q_i$
- 同样地，对键向量： $\hat{k}_j = R_{\theta, j} k_j$
其中 $R_{\theta, p}$ 是基于位置 $p$ 的旋转矩阵。
注意力计算：
- 计算旋转后的注意力分数： $a_{ij} = \hat{q}_i \cdot \hat{k}_j = q_i \cdot R_{\theta, i-j} k_j$
- 应用softmax归一化： $\alpha_{ij} = \text{softmax}(a_{ij})$
- 加权求和值向量： $o_i = \sum_j \alpha_{ij} v_j$

注意关键的数学性质： $\hat{q}_i \cdot \hat{k}_j = q_i \cdot R_{\theta, i-j} k_j$ 。这表明旋转后的点积直接编码了相对位置 $i - j$ ，使模型能够明确感知词元间的相对位置关系。

2.3 详细的作用过程示例

让我通过一个具体例子来说明位置向量和查询向量如何协同工作。假设我们处理一个简单的句子：“人工智能正在快速发展”。

2.3.1 步骤1: 输入处理与位置融合

以RoPE为例，处理流程如下：

词元嵌入：每个词元转换为嵌入向量
- “人工” → $x_0$
- “智能” → $x_1$
- “正在” → $x_2$
- “快速” → $x_3$
- “发展” → $x_4$
生成查询和键向量：
- $q_0 = x_0 W_Q$ , $k_0 = x_0 W_K$ (位置0)
- $q_1 = x_1 W_Q$ , $k_1 = x_1 W_K$ (位置1)
- … 以此类推
应用位置旋转：
- $\hat{q}_0 = R_{\theta, 0} q_0$ , $\hat{k}_0 = R_{\theta, 0} k_0$
- $\hat{q}_1 = R_{\theta, 1} q_1$ , $\hat{k}_1 = R_{\theta, 1} k_1$
- … 以此类推

在这个过程中，每个查询和键向量都通过位置特定的旋转变换，将位置信息编入向量表示中。

2.3.2 步骤2: 注意力计算

考虑位置2的词元"正在"如何与其他词元交互：

计算注意力分数：对于每个位置 $j$ ，计算 $a_{2j} = \hat{q}_2 \cdot \hat{k}_j$
- 与"人工"的注意力： $a_{20} = \hat{q}_2 \cdot \hat{k}_0 = q_2 \cdot R_{\theta, 2-0} k_0 = q_2 \cdot R_{\theta, 2} k_0$
- 与"智能"的注意力： $a_{21} = \hat{q}_2 \cdot \hat{k}_1 = q_2 \cdot R_{\theta, 2-1} k_1 = q_2 \cdot R_{\theta, 1} k_1$
- 与自身的注意力： $a_{22} = \hat{q}_2 \cdot \hat{k}_2 = q_2 \cdot R_{\theta, 2-2} k_2 = q_2 \cdot R_{\theta, 0} k_2 = q_2 \cdot k_2$
- 与"快速"的注意力： $a_{23} = \hat{q}_2 \cdot \hat{k}_3 = q_2 \cdot R_{\theta, 2-3} k_3 = q_2 \cdot R_{\theta, -1} k_3$
- 与"发展"的注意力： $a_{24} = \hat{q}_2 \cdot \hat{k}_4 = q_2 \cdot R_{\theta, 2-4} k_4 = q_2 \cdot R_{\theta, -2} k_4$
应用softmax： $\alpha_{2j} = \text{softmax}(a_{2j})$

这将注意力分数归一化为概率分布，表示"正在"对每个位置的关注程度。
加权聚合值向量： $o_2 = \sum_j \alpha_{2j} v_j$

这一步合成了与"正在"相关联的信息，同时考虑了位置关系。

2.3.3 关键观察

在上面的例子中，我们可以观察到几个重要特点：

相对位置的直接编码：注意力分数 $a_{2j}$ 直接依赖于相对位置 $2 - j$ ，通过 $R_{\theta, 2-j}$ 编码。
自注意力的特殊性：当 $i = j$ 时（词元与自身的注意力），旋转矩阵变为单位矩阵 $R_{\theta, 0}$ ，使得 $a_{ii} = q_i \cdot k_i$ ，这是标准内积。
前后关系的区分：
- 前面的词元（如"人工"和"智能"）通过正相对位置 $(+ 2, + 1)$ 编码
- 后面的词元（如"快速"和"发展"）通过负相对位置 $(- 1, - 2)$ 编码
这使模型能够区分前后文关系。