【Transformer拆解】-2. 位置编码(Positional Encoding)
<1> 为什么Transformer必须引入位置信息?
一、核心原因:置换不变性(Permutation Invariance)
Transformer的自注意力机制本质上是集合操作,对输入序列的排列顺序完全不敏感。例如:
# 以下两个输入对注意力层完全等价
Input1 = [词A, 词B, 词C]
Input2 = [词C, 词A, 词B] # 仅顺序不同,但注意力计算结果相同
语言/时序数据的本质:
-
"注水井先开阀后加压" ≠ "注水井先加压后开阀"
-
位