递归神经网络(RNN)、长短期记忆网络(LSTM)和门控递归神经网络(GRU)尤其在序列建模和转换问题(如语言建模和机器翻译)中被确立为最先进的方法。自此以来,许多研究努力继续推动递归语言模型和编码器-解码器架构的边界。
递归模型通常沿着输入和输出序列的符号位置进行计算分解。通过将位置与计算时间步骤对齐,它们生成一系列隐藏状态 ht,作为前一隐藏状态 ht−1 和位置 t 的输入的函数。这种固有的顺序性质阻碍了训练样本内的并行化,尤其在序列长度较长时,因为内存限制限制了跨样本的批处理。最近的研究通过分解技巧和条件计算在计算效率上取得了显著的改进,同时在后者的情况下也提高了模型性能。然而,顺序计算的基本限制依然存在。
注意力机制已成为各种任务中序列建模和转换模型的重要组成部分,允许在输入或输出序列中建模不考虑其距离的依赖关系[2, 16]。然而,除少数情况外[22],这些注意力机制通常与递归网络结合使用。
在这项工作中,我们提出了 Transformer,一种完全摒弃递归而完全依赖注意力机制来绘制输入和输出之间全局依赖关系的模型架构。Transformer 允许显著更多的并行化,并且在八个 P100 GPU上训练仅十二小时后即可达到翻译质量的新水平。