大模型会话窗口为什么对最新和最久记忆表现较好
大模型会话窗口为什么对最新和最久记忆表现较好
大模型会话窗口对最新和最久记忆表现较好,主要与注意力机制设计、上下文处理逻辑和模型训练特性有关
一、注意力机制的「近期偏好」
大模型(如Transformer架构)通过自注意力机制处理输入序列,每个位置的输出会关注整个输入序列的上下文。但在计算时,近期token的注意力权重通常更高,原因包括:
- 位置编码的衰减效应:
位置编码(如正弦余弦编码)对远距离token的相对位置表征可能不够精确,导致模型对早期内容的位置感知模糊。而近期token的位置编码更接近当前计算点,权重分配更精准。 - 计算资源的优先级:
模型在处理长序列时,会优先分配计算资源给当前正在处理的token及其附近上下文,使得近期信息的特征提取更充分。