当前位置：首页 > news >正文

Transformer原理

news 2025/8/24 14:44:23

一、简单介绍

二、基本结构

三、详细拆解

前言

注意力机制

自注意力：缩放点积注意力计算

交叉注意力：

多头注意力：每一个头做的都是缩放点积注意力

位置编码

四、模型框架

encoder

多头注意力：将QKV分为h组（一般为8），每组独立计算注意力后拼接结果

前馈神经网络：由两层全连接层和ReLU激活函数，每个子层后接残差连接和层归一化

残差处理：Output=Sublayer(x)+x 在输出后直接叠加该子层的输入

层归一化：在残差处理后对结果归一化，对每个样本独立计算均值和方差

decoder

掩码多头注意力层：创建一个下三角矩阵，左下方全是0，右上方负无穷

编码器-解码器多头注意力层（交叉注意力）

前馈神经网络

五、一点提醒（位置编码）

举例

一、简单介绍

相对于seq2seq就是不使用循环RNN，训练的时候可以并行训练，这个时候如果把句子加的很长，数据集用的很大也可以。Transformei是一个N近N出的结构，每个Transformer单元相当于一层的RNN，接收一整个句子所有词作为输入，然对每一个词都做输出。Transformer任意两个词之间的操作距离都是1。

二、基本结构

主要分为编码和解码两个部分，每个encoder和decoder又是一个串联的组合，比如输入了以后经过6个编码器，右边通过6的解码器输出，可以理解为每次完整的变形都要重复2*6步操作，每个encoder又包含self-attention和前馈网络两个模块，分别计算权重和根据权重变形。decoder在self-attention和前馈神经网络中间还增加了一层encoder-decoder attention，作用就是在解码时不仅看翻译内容还要看上下文信息。每个self-attention会分解为Multi-head attention。

三、详细拆解

前言

如果设计纯粹语义关系的编码，数字化之后的数值要能体现语义关系。就比方说现在有学生和书和大象，那么可以假设学生和书这两个语义关系的向量在空间中的距离更近，而与大象更远。

数字化方法一种是分词器，一种是独热编码，分词器Tokenizer是一个用于向量化文本，将文本转换为序列的类，可以把文本投射到一维空间，完全没有利用维度关系。而one-hot投射到多维空间，有多少单词就是多少维空间，每个向量正交，没有把空间的长度利用起来，很难体现出单词之间的联系，所以One-hot并不适合在此使用。

所以我们要找到一个浅空间，一种方法是升维，一种是降维。而通过矩阵相乘就可以实现降维，可以看作空间变换。向量的一行和矩阵的一列相乘得到一个数：

假如T向量是操作之前的向量，这个向量里的每一个数值就相当于对应坐标系下的坐标值，也就是在e1和e2上的分量比如be1,ae2，而通过与矩阵相乘以后就可以在一个新的坐标系下表示，坐标轴可以看作单位向量，那么在新坐标系下，比如原本是be1，e1=(w1,w2)，现在在这个坐标系下e1=(w11,w12,w13)，那么T的e1的分量就可以表示为(bw11,bw12,bw13),e2同理。总结就是行代表旧坐标系有多少维度，列代表新坐标系有多少维度。但是向量与矩阵相乘也会发生拉伸和收缩，变的是向量，当他们结合起来，就可以在新的坐标系下产生向量的变换

如果想让一个直线经过矩阵相乘变成一个曲线，就需要通过二次型。众所周知二次型P(x)=XtAX，那么这里x就是原本的向量，对应的就是一个二次函数：

原来空间中的向量经过矩阵相乘之后就可以变成新空间里的数据，同理多个向量也可以如此，那么就是矩阵和矩阵相乘。

一个神经网络的隐藏层其实就是在做一次线性变化：

其中隐藏层的神经元个数就是变换后空间的维度，输入的多就是升维，反之降维。举个例子：当数据从两维的经过升维编程十维，如图：

如果这是分类问题，如果数据只是二维的，那么坐标系中很难用一条直线来进行划分，那么只有在更高的维度中才能实现更好的划分，只要维数高就可以找到一个平面划分。隐藏层的作用就是让数据更复杂。当隐藏层的层数变多，如果每层的维度越来越少，相当于降维，这是因为某个特征不需要原始数据里的所有维度，只需要关注某个特征就可以，可以理解为对上一层进行了抽象，至于为什么需要那么多层隐藏层，这是因为可以更好的利用基础的特征部分，可以复用，隐藏层越深，抽象程度越高。

再说说embedding，每一个维度都代表了一个语义，具体的语义是什么要看数据：