3.2 自注意力与多头注意力:并行计算不同特征的秘密武器
自注意力机制和多头注意力机制是Transformer架构的核心组件,它们让模型能够并行处理序列中的所有元素,并同时关注输入的不同方面。这些技术彻底改变了深度学习领域,成为现代大语言模型的基础。今天我们就来深入探索这些秘密武器的工作原理。
什么是自注意力机制?
自注意力机制(Self-Attention)是一种特殊的注意力机制,它允许序列中的每个位置关注序列中的所有位置,包括自己。这使得模型能够直接捕获序列中任意两个元素之间的依赖关系,而无需像RNN那样通过多步传递信息。