激活向量是什么
激活向量是什么
LLM中每一层输出都是激活向量
在大型语言模型(LLM)中,每一层的输出通常是激活向量,但需要结合模型架构和具体计算过程来深入理解这一概念
一、LLM的基本架构与计算逻辑
LLM(如GPT系列、BERT等)大多基于Transformer架构,其核心由多层编码器(Encoder)或解码器(Decoder)组成。每一层的计算流程可概括为:
- 输入处理:前一层的输出(或初始输入嵌入)作为当前层的输入。
- 核心运算:通过自注意力机制(Self-Attention)、前馈神经网络(Feedforward Network)等模块进行计算。
- 输出生成:经过非线性激活函数(如GELU、ReLU等)后,生成当前层的激活向量。