当前位置：首页 > news >正文

NLP-注意力机制

news 2025/10/12 23:58:42

一、注意力机制核心概念

1.1 基本定义

注意力机制是一种让模型能够聚焦于输入数据关键部分的技术，通过动态权重分配提高信息处理效率。

1.2 核心类比：档案检索系统

组件	类比	作用
Q(Query)	研究课题/检索问题	指定需要关注的内容
K(Key)	文件标签/索引	提供内容的定位信息
V(Value)	文件具体内容	提供实际的信息载体

1.3 计算原理

# 注意力机制核心计算过程
attention_weights = softmax(Q · K^T)  # 计算注意力权重
output = attention_weights · V       # 加权求和得到输出

二、注意力机制的优势

2.1 与传统RNN对比

特性	传统RNN	带注意力机制的模型
特征提取	顺序串行	并行处理
长序列处理	容易遗忘前面信息	直接关注关键信息
效率	相对较低	更高效
重点捕捉	不够灵活	动态关注重要部分

2.2 解决的核心问题

效率问题：并行提取特征，避免RNN的序列依赖
重点捕捉：动态关注输入中最相关的部分
长距离依赖：直接建立远距离元素间的关联

三、注意力机制的工作原理

3.1 三步骤计算过程

相似度计算：Query与Key进行相似度计算

相似度 = f(Q, K)  # 可通过点积、拼接等方式计算

权重归一化：通过softmax得到注意力权重
```
权重 = softmax(相似度/√d_k)  # d_k为Key的维度
```
加权求和：权重与Value相乘得到输出
```
输出 = Σ(权重_i · Value_i)
```

3.2 示例：指代消解

句子："A robot must obey the orders given it by human beings..."

处理过程：

Q: "it"的查询向量
K: 每个单词的索引向量
V: 每个单词的词向量表示

结果：模型会将50%注意力放在"robot"上，30%在"a"上，19%在"it"上，从而正确理解指代关系。

四、Seq2Seq架构中的注意力机制

4.1 Seq2Seq基本结构

编码器(Encoder) → 中间语义张量C → 解码器(Decoder)

4.2 加入注意力机制后的变化

Q: 当前解码时间步的查询（如前一时间步的输出）
K: 编码器所有时间步的隐藏状态
V: 编码器的输出（中间语义张量C）

4.3 工作流程

解码器每个时间步生成查询向量Q
Q与编码器所有隐藏状态(K)计算注意力权重
权重与编码器输出(V)加权求和得到上下文向量
上下文向量与当前解码状态结合生成输出

五、注意力机制的分类与实现

5.1 注意力机制分类

类型	Q、K、V关系	特点
一般注意力机制	Q ≠ K ≠ V 或 Q ≠ (K=V)	最通用的形式
自注意力机制	Q = K = V	同一输入生成Q、K、V

5.2 三种计算规则

拼接方式：Attention(Q, K, V) = Softmax(Linear([Q, K])) ∙ V
相加方式：Attention(Q, K, V) = Softmax(sum(tanh(Linear([Q, K])))) ∙ V
点积方式：Attention(Q, K, V) = Softmax((Q∙K^T)/√d_k) ∙ V

5.3 代码实现要点

class Attn(nn.Module):def __init__(self, query_size, key_size, value_size1, value_size2, output_size):super(Attn, self).__init__()# 线性层定义self.linear = nn.Linear(query_size + key_size, value_size1)self.attn_combine = nn.Linear(query_size + value_size2, output_size)def forward(self, Q, K, V):# 计算注意力权重attn_weights = F.softmax(self.linear(torch.cat((Q[0], K[0]), 1)), dim=1)# 应用注意力权重attn_applied = torch.bmm(attn_weights.unsqueeze(0), V)# 组合输出output = torch.cat((attn_applied[0], Q[0]), 1)output = self.attn_combine(output).unsqueeze(0)return output, attn_weights