大模型学习:Transformer架构中的解码器层(Decoder Layer)
一、解码器层介绍
-
概念
解码器层(Decoder Layer)是Transformer架构中的基本单元之一,每个解码器层负责处理目标序列并与编码器的输出交互,以生成目标序列中的每个词。
-
作用
根据编码器提供的上下文信息和已生成的输出序列,逐步预测下一个token的表示。每个解码器层都能够处理上一层的输出,并结合编码器的信息,逐步生成更符合目标的输出序列。
tips:
为什么是逐步预测下一个token?transformer的核心任务是生成一个输出序列(如翻译、文本生成等)。输出序列的长度通常是未知的,且每个时间步的输出依赖于前一个时间步的输出。因此,解码器必须逐步生成序列:
- 逐步生成:解码器每次生成一个字符(或词),并将其作为下一个时间步的输入。
- 自回归特性:这种逐步生成的方式称为