当前位置：首页 > news >正文

大模型为什么需要自注意力机制？

news 2025/9/21 7:04:13

参考视频：面试必刷：大模型为什么需要自注意力机制（Self-Attention）？_哔哩哔哩_bilibili

其实这个问题，可以理解为在问为什么提出Transformer？Transformer解决了什么问题？

详解文章:Transformer内容详解（通透版）-CSDN博客

首先，我们需要知道，Transformer用来解决什么问题？在Transformer提出之前，用的算法有什么缺陷？

Transformer的提出，主要是为了解决序列建模中传统方法（RNN,LSTM等）并行效率低、难以捕捉长距离依赖、模型扩展能力差的问题。

因为RNN依赖历史信息的方法，一旦传播距离过远就会导致梯度消失，虽然LSTM通过门控机制有选择性的保留/丢弃信息，使得重要信息能够无损传递，但是仍然依赖历史信息，无法并行处理。

CNN虽然能够并行处理，但是感受野有限，具有弱顺序性，对长距离信息需要堆叠多层，导致深度过大带来的计算量和梯度问题。

总结：大模型采用自注意力机制，主要是因为它可以高效捕捉序列中远距离的依赖关系，不受序列长度限制；能够并行计算，大幅提高训练和推理的效率；还能灵活分配注意力权重，增强模型对复杂输入的理解力；此外，自注意力配合多头机制，进一步提升模型的表达能力和泛化性能。这些特性使自注意力成为构建大规模、强能力模型的关键组件。”

查看全文

http://www.dtcms.com/a/392580.html