为什么 Transformer 要使用多头注意力机制?
简而言之,多头注意力机制可以让模型从不同的在空间中并行地捕捉到不同的特征关系,从而更全面,更灵活地理解序列中的信息。
举个例子,如果要看一幅画,就不能简单地只关注例如颜色,还要关注到结构,风格,纹理等特征。在 Transformer注意力机制中,每个“头”就是一个独立的注意力机制,分别从输入中学习到不同的表示方式。
技术细节:怎么做到“多头”?
原始输入 X 先被线性变换成多个不同的 Query、Key、Value。
每个头计算一个 Scaled Dot-Product Attention:
所有头的结果拼接起来,再通过一个线性层整合。
所以多头注意力 = 多个“注意力计算器” + 最后融合一下结果。