论文笔记(四十五)Attention Is All You Need-摘要

主流的序列转换模型基于复杂的递归或卷积神经网络,其中包括一个编码器和一个解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构–“转换器”(Transformer),它完全基于注意力机制,无需递归和卷积。在两项机器翻译任务上的实验表明,这些模型的质量更优,同时可并行化程度更高,所需的训练时间也大大减少。我们的模型在 WMT 2014 英德翻译任务中达到了 28.4 BLEU,比现有的最佳结果(包括集合)提高了 2 BLEU 以上。在 WMT 2014 英法翻译任务中,我们的模型在 8 个 GPU 上训练了 3.5 天后,单个模型的 BLEU 得分达到了 41.0 分,这只是文献中最佳模型训练成本的一小部分。


上一篇:深入了解WebP:下一代图像格式-5. 结论


下一篇:JS实现瀑布流布局