旋转位置编码的论文阅读
摘要
位置编码(Position encoding)在 Transformer 架构中近期表现出了良好的效果。它能够为建模序列中不同位置元素之间的依赖关系提供有价值的监督。本文首先研究了将位置信息融入基于 Transformer 的语言模型学习过程的多种方法。接着,我们提出了一种新的方法——旋转位置嵌入(Rotary Position Embedding,RoPE),用于更有效地利用位置信息。具体来说,RoPE 通过旋转矩阵对绝对位置进行编码,同时在自注意力机制的公式中引入了显式的相对位置信息。值得注意的是,RoPE 具备多种有价值的性质,包括:序列长度的灵活性、随着相对距离增加而逐渐衰减的 token 间依赖关系、以及为线性自注意力机制引入相对位置编码的能力。最后,我们在多个长文本分类基准数据集上评估了这种带有旋转位置嵌入的增强型 Transformer(称为 RoFormer)。实验结果表明,RoFormer 在性能上始终优于其他替代方法。此外,我们还提供了理论分析,以解释部分实验现象。目前,RoFormer 已经被集成进 HuggingFace。https://huggingface.co/docs/transformers/model_doc/roformer
1. 引言
词语的顺序对自然语言理解具有重要价值。基于循环神经网络(RNN)的模型通过在时间维度上递归地计算隐藏状态来编码 token 的顺序。基于卷积神经网络(CNN)的模型则通常被认为与位置无关(posit