LLM - Attention Is All You Need 的理解
一:概述
当前主流的序列转换(sequence transduction)模型主要基于复杂的循环神经网络(Recurrent Neural Networks, RNNs)或卷积神经网络(Convolutional Neural Networks, CNNs),这些模型通常包含编码器(encoder)和解码器(decoder)。 性能最优的模型通常通过“ 注意力机制(attention mechanism)”将编码器和解码器连接起来。
我们提出了一种新的、简单的网络架构——Transformer,它完全基于注意力机制,完全摒弃了循环(recurrence)和卷积(convolution)。
在两个机器翻译任务上的实验表明,这些模型在翻译质量上更优,同时具备更强的并行性,并且训练时间显著减少。在WMT 2014 英语-德语(English-to-German)翻译任务中,我们的模型取得了 28.4 BLEU 分数(BLEU是用于评估机器翻译质量的指标),相较于当时最好的结果(包括集成模型),提高了 2 BLEU 以上。
在WMT 2014 英语-法语(English-to-French