当前位置：首页 > news >正文

Week 19: 深度学习补遗：自注意力和Transformer Encoder架构

news 2025/10/6 8:03:22

Week 19: 深度学习补遗：自注意力和Transformer Encoder架构

摘要

本周主要跟随李宏毅老师的课程进行学习，对自注意力的知识进行了深化学习和理解，并且开始了对于Transformer的模型的学习。

Abstract

This week’s learning primarily followed Professor Hung-yi Lee’s course, deepening my knowledge and understanding of self-attention mechanisms while also initiating the study of Transformer models.

1. Self-Attention 自注意力

自注意力机制对比其他前后文时序模型，例如RNN、LSTM等的显著优势之一是其并行性，即不再需要串行地依赖前文的计算用于后文计算，而是可以并行地计算所有元素的注意力分数。
$q^i=W^qa^i \\ k^i=W^ka^i \\ v^i=W^va^i$
因为每一个 $q^i$ 、 $k^i$ 、 $v^i$ 都是 $a^i$ 乘以对应的矩阵运算得到的，于是，可以考虑将 $a^i$ 矩阵拼接，变为 $I$ 。直接进行矩阵乘法，一次性计算出结果。那么 $q^i$ 、 $k^i$ 、 $v^i$ 将会对应变为 $Q$ 、 $K$ 、 $V$ 。而其中的转换矩阵 $W^q$ 、 $W^k$ 、 $W^v$ 是需要被学习的参数。
$\underset{\text{Query Matrix}}{\underline{Q}}=W^q\underset{\text{Input Vector Matrix}}{\underline{I}}\\ \underset{\text{Key Matrix}}{\underline{K}}=W^k\underset{\text{Input Vector Matrix}}{\underline{I}}\\ \underset{\text{Value Matrix}}{\underline{V}}=W^v\underset{\text{Input Vector Matrix}}{\underline{I}}\\$

完成了 $Q$ 、 $K$ 、 $V$ 的计算后，就可以进一步利用矩阵运算计算注意力分数。
$\underset{\text{Attention Matrix}}{\underline{A'}}\underset{\text{Some Modification}}{\gets} A=K^TQ\\ \underset{\text{Output Matrix}}{\underline{O}}=VA'$

2. Multi-head Self-Attention 多头自注意力

有时问题会有很多个尺度的信息，单个注意力头并不足够提取全局特征，可能就需要多个注意力头对全局特征进行提取。在一些场景下，例如翻译、语义解析等，多头注意力能显著取得更好的效果。

多头注意力机制指的是有多个并行的注意力头，使用不同的权重和转换矩阵以提取序列不同维度的信息。

以两头自注意力机制为例，在求解 $q^{i,1}$ 时，使用 $W^{q^,1}$ 权重矩阵；而在求解 $q^{i,2}$ 时，使用 $W^{q^,2}$ 权重矩阵。
$q^{i,1}=W^{q,1}q^i \\ q^{i,2}=W^{q,2}q^i$
$k$ 、 $v$ 同理，同时根据相同头一起计算的原则，与自注意力一样的步骤计算出 $k$ 、 $v$ 、 $a$ 和 $b^{i,1}$ 与 $b^{i,2}$ 。

Multi-head Self-attention q-k-v Calculation

最后，纵向拼接 $b^{i,1}$ 与 $b^{i,2}$ ，乘一个转换矩阵 $W^O$ 后得到原来单头注意力输出的 $b^i$ 。

Output

3. Positional Encoding 位置编码

在自注意力里，没有位置信息嵌入，位置对每个输出没有影响。位置编码对每一个位置设定一个位置向量（Positional Vector） $e^i$ 。
$e^i+\underset{q^i\quad k^i \quad v^i}{\underline{a^i}}$
直接将位置编码加上即可完成对位置信息的嵌入，在“Attention is all you need”原论文中，使用了一种利用三角函数生成位置向量的方法。实际上位置向量可以既可以采用三角函数生成（Sinusoidal），也可以利用神经网络进行嵌入，还可以自己设计生成规则。