大模型为什么需要自注意力机制?
参考视频:面试必刷:大模型为什么需要自注意力机制(Self-Attention)?_哔哩哔哩_bilibili
其实这个问题,可以理解为在问为什么提出Transformer?Transformer解决了什么问题?
详解文章:Transformer内容详解(通透版)-CSDN博客
首先,我们需要知道,Transformer用来解决什么问题?在Transformer提出之前,用的算法有什么缺陷?
Transformer的提出,主要是为了解决序列建模中传统方法(RNN,LSTM等)并行效率低、难以捕捉长距离依赖、模型扩展能力差的问题。
因为RNN依赖历史信息的方法,一旦传播距离过远就会导致梯度消失,虽然LSTM通过门控机制有选择性的保留/丢弃信息,使得重要信息能够无损传递,但是仍然依赖历史信息,无法并行处理。
CNN虽然能够并行处理,但是感受野有限,具有弱顺序性,对长距离信息需要堆叠多层,导致深度过大带来的计算量和梯度问题。
总结:大模型采用自注意力机制,主要是因为它可以高效捕捉序列中远距离的依赖关系,不受序列长度限制;能够并行计算,大幅提高训练和推理的效率;还能灵活分配注意力权重,增强模型对复杂输入的理解力;此外,自注意力配合多头机制,进一步提升模型的表达能力和泛化性能。这些特性使自注意力成为构建大规模、强能力模型的关键组件。”