当前位置：首页 > news >正文

transformer-注意力评分函数

news 2025/10/16 6:16:19

10.2 节使用了高斯核来对查询和键之间的关系建模，10.6中的高斯核指数部分可以视为注意力评分函数，简称评分函数，然后把这个函数的输出结果输入softmax 函数中进行运算，通过上述步骤，将得到与键对应的值的概率分布，最后，注意力汇聚的输出就是基于这些注意力权重的值的加权和。

评分函数注意力权重输出

键 softmax 值

查询

图10-4 计算注意力汇聚的输出为值的加权和

用数学语言描述，假设有一个查询q 属于 Rq和m个键值对(ki, ,,,v1),,,,(km,Vm) 其中ki属于Rk

Vi属于Rv，注意力汇聚函数f就被表示成值的加权和

f(q,(k1, V1)) = Sigma a(q,ki) Vi属于Rv

其中，查询q和键Ki的注意力权重是通过注意力评分函数a将两个向量映射成标量再经过softmax运算得到的。

正如图10-4所示，选择不同的注意力评分函数a会导致不同的注意力汇聚操作，本节将介绍两个流行的评分函数，稍后将用它来实现更复杂的注意力机制。

import math

import torch

from torch import nn

from d2l import torch as d2l

10.3.1 掩蔽softmax操作

上面提到的，softmax操作用于输出一个概率分布为注意力权重，在某些情况下，并非所有的值都应该被纳入注意力汇聚中。例如，为了在9.5节中高校处理小批量数据集，某些文本序列被填充了没有意义的特殊词元。为了仅将有意义的词元作为值来获取注意力汇聚，可以指定一个有效序列长度，以便在计算softmax时过滤掉超出指定范围的位置，下面的masked_softmax函数实现了这样的掩蔽softmax操作，其中任何超出有效长度的位置都被掩蔽并设置为0.

def masked_softmax(X, valid_lens):

通过在最后一个轴上掩蔽元素来执行softmax操作

X:3D张量，valid_lens:1D或2D张量

if valid_lens is None:

return nn.functional.softmax(X, dim = -1)

else:

shape = X.shape

if valid_lens.dim() == 1:

valid_lens = torch.repeat_interleave(valid_lens, shape[1])

else:

valid_lens = valid_lens.reshape(-1)

最后一个轴上被掩蔽的元素使用一个非常大的负值替换，从而其softmax输出为0

X=d2l.sequence_mask(X.reshape(-1, shape[-1], valid_lens, value=-1e6))

return nn.functional_softmax(X.reshape(shape), dim=-1)

为了掩饰此函数时如何工作的，考虑由两个2x4矩阵表示的样本，这两个样本有效长度分别为2和3，经过掩蔽softmax操作，超出有效长度的值都被掩蔽为0

masked_softmax(torch.rand(2,2,4), torch.tensor([2,3]))

同样，也可以使用二维张量，为矩阵样本中的每一行指定有效长度。

masked_softmax(torch.rand(2,2,4), torch.tensor([1,3],[2,4]))

10.3.2 加性注意力

当查询和键不同长度的向量时，可以使用加性注意力作为评分函数，给定查询q属于Rq和键k属于Rk,加性注意力的评分函数为

可学习的参数是Wq属于Rkxq，Wk属于Rhxk和Wt属于Rh。查询和键连接起来后输入一个多层感知机MLP中，感知机包含一个隐藏层，其隐藏单元数一个超参数h，通过使用tanh作为激活函数，并且禁用偏置项。

下面来实现加性注意力

class AdditiveAttention(nn.Module)

加性注意力

def __init__(self, key_size, query_size, num_hiddens, dropout, **kwargs):

super(AdditiveAttention, self).__init__(**kwargs)

self.W_k = nn.Linear(key_size, num_hiddens, bias = False)

self.W_q = nn.Linear(query_size, num_hiddens, bias = False)

self.W_v = nn.Linear(num_hiddens, 1, bias = False)

def forward(self, queries, keys, values, valid_lens):

queries, keys = self.W_q(queries), self.W_k(keys)

#在维度扩展后

#queries的形状为(batch_size, 查询数，1，num_hidden)

#key 的形状为(batch_size, 1, 键-值对数，num_hiddens)

#使用广播方式求和

features = queries.unsqueeze(2) + keys.unqueeze(1)

features = torch.tanh(features)

#self.w_v仅有一个输出，因此从形状中移除最后的维度

scores的形状为(batch_size, 查询数，键-值对数)

scores = self.w_v(features).squeeze(-1)

self.attention_weights = masked_softmax(scores, valid_lens)

values 的形状为batch_size, 键-值对数，值的维度

return torch.bmm(self.dropout(self.attention_weights), values)

用一个小例子演示上面的additiveAttention类，其中查询，键和值的形状为量大小，步数或词元序列长度，实际输出为2,1,20，注意力汇聚输出的形状为批量大小，查询的步数，值的维度。

queries, keys = torch.normal(0,1,(2,1,20)), torch.ones(2, 10, 2)

#values的小批量，两个值矩阵是相同的

values = torch.arange(40, dtype = torch.float32).reshape(1, 10, 4).repeat(2, 1, 1)

valid_lens = torch.tensor([2, 6])

attention = AdditiveAttention(key_size = 2, query_size=20, num_hiddens=8, dropout = 0.1)

attention.eval()

attention(queries, keys, values, valid_lens)

尽管加性注意力包含了可学习的参数，由于本例中每个键都是相同的，因此注意力权重是均匀的，由指定的有效长度决定。

d2l.show_heatmaps(attention.attention_weights.reshape(1,1,2,10)):

xlabel='keys', ylabel='Queries'

10.3.3 缩放点积注意力

使用点积可以得到计算效率更高的评分函数，但是点积操作要求查询和键具有相同的长度d，假设查询和键的所有元素都是独立的随机变量，并且都满足零均值和单位方差，那么两个向量的点积的均值为0，方差为d，为确保无论向量长度如何，点积的方差在不考虑向量长度的情况下都是1，我们再将点积除以根号d，则缩放点积注意力评分函数为