GPT-1 与 BERT 架构
GPT-1
架构特点
- 仅解码器架构:摈弃了传统transformer中的编码器层,而是直接用解码器和自注意力,同时抛弃掉了交叉多头注意力层,自注意力通过mask来完成计算。
- 注意力块添加到12个,Attention的输出维数为762维,FeedForward的升维维数增加到2048维。总参数量达1.5亿(0.15B)。
- 可学习的位置编码:位置编码不再使用固定的公式计算,而是作为神经网络参数的一部分进行学习。
训练过程
无监督预训练
给定一个句子,无监督预训练做的就是根据之前的token预测下一个token,每个batch里面包含的是该句子的前若干个token组成的输入,(但是实际实现中不会真的去这样做切分,而是用注意力掩码来控制注意力的计算)。输出是对应的下一个token。
每一个token的注意力嵌入最后通过前馈网络都能生成下一个token的预测,最终根据每一个token预测计算交叉熵平均损失,从而得到这个输入的训练损失。
有监督微调
与预训练的方法类似,但是存在以下两个区别:
- 训练数据的内容是人为标注的,符合人们对模型的工具定位,要求模型必须按用户的需求回答
- 在计算损失部分,不会把prompt部分的自损失计算上,而只会计算人为标注的输出部分的每个token预测的损失平均值。
GPT-1的缺陷
- GPT-1使用的Transformer Decoder是单向语言模型,提取信息的能力不如Bert,但生成文本的能力很强
- GPT-1针对每一个下游任务都需要训练一个模型,工作量大
BERT
架构特点
- BERT是仅编码器架构,所以BERT丧失了输出文本的能力
- BERT在对输入进行嵌入时,除了常规的嵌入和位置编码,BERT还会对句子的序列头和序列为进行编码。
在此处,我们可以看到两个特殊的标识符[CLS]和[SEP],它们没有自身的语义,[CLS]表示序列的开头,[SEP]表示句子的结尾。BERT的输入只会有1 - 2 个序列。
如果输入是两个序列则第二个序列的段落编码为1,否则段落编码为0.
序列编码示例:
- <CLS> my dog is cute <SEP> --> 0 0 0 0 0 0
- <CLS> my dog is cute <SEP> he likes play ##ing <SEP> ---> 0 0 0 0 0 0 1 1 1 1 1
训练过程
BERT的预训练过程包括两个任务:
掩码语言模型(MLM)
以 15% 的概率随机将句子中的某个token替换为 [MASK] , 随后让模型预测原位置对应的token是什么,这样可以让模型更好的捕捉语义。
- 存在的问题:模型过于关注[MASK]这个token,但是下游任务中并不会出现[MASK],所以可能出现过拟合的现象。
- 解决方案:选择完token之后,有三种选择:
- 替换为[MASK] token
- 替换为其他随机token
- 不替换
由于模型不知道句子中对应的token是否是真的原token,所以模型会尝试根据句子的语义来找到原token。
邻接序列预测(NSP)
输入两个序列,由模型判断两个序列是否在语义上是相关联的,或者说后面的序列是否在语料中与前面的序列临近。
- 通过CLS中的向量信息来进行二分类,因为CLS本身没有语义信息,内部的信息只能是句子整体的信息。
举例:
Input1=[CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP]Label1=IsNextInput2=[CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP]Label2=NotNext
应用场景
句子分类
句子情感预测
语句问答
单句标注:标注句子中出现的每一个token的标签
缺陷
BERT失去了文本生成的能力,换来了更强的信息提取能力