LLM隐藏层状态: outputs.hidden_states 是 MLP Residual 还是 Layer Norm
outputs.hidden_states 是 MLP Residual 还是 Layer Norm
outputs.hidden_states
既不是单纯的 MLP Residual,也不是单纯的 Layer Norm,而是每一层所有组件(包括 Layer Norm、注意力、MLP、残差连接等)处理后的最终隐藏状态。具体需结合 Transformer 层的结构理解:
1. Transformer 层的典型结构(以 GPT 类模型为例)
一个标准的 Transformer 层(如 GPT 的 Decoder 层)流程为:
输入 x → Layer Norm(x) → 自注意力(Self-Attention) → 残差连接(x + 注意力输出) → Layer Norm → MLP → 残差连接(上一步结果 + MLP 输出) → 输出 y
其中:
- Layer Norm:对输入做归一化,稳定训练(是中间操作,非最终输出)。
- MLP Residual:指 MLP 模块的残差连接(即“上一步结果 + MLP 输出”),是层内的一个子步骤。