信息检索(112):Token-level Adaptive Training for Neural Machine Translation-1 引言

神经机器翻译 (NMT) 系统 (Kalchbrenner and Blunsom, 2013; Cho et al, 2014; Sutskever et al, 2014; Bahdanau et al, 2015; Gehring et al, 2017; Vaswani et al, 2017) 是数据驱动模型,高度依赖于训练语料库。NMT 模型倾向于对频繁观察(例如单词、单词共现)过度拟合,而忽略那些低频观察。不幸的是,自然语言中存在标记不平衡现象,因为不同的标记以不同的频率出现,这大致遵循 Zipf 定律 (Zipf, 1949)。表 1 显示高频标记和低频标记之间存在严重的不平衡。NMT 模型在训练过程中很少有机会学习和生成那些真实的低频标记。

一些工作尝试通过维护短语表或退避词汇表(Luong et al, 2015; Jean et al, 2015; Li et al, 2016; Pham et al, 2018)或添加额外组件(Gul¨ c¸ehre et al, 2016; Zhao et al, 2018)来改进罕见词翻译,这带来了额外的训练复杂度和计算开销。一些基于较小翻译粒度的 NMT 技术可以缓解此问题,例如基于混合字字符的模型(Luong and Manning, 2016)、基于 BPE 的模型(Sennrich et al, 2016)和基于词块的模型(Wu et al, 2016)。这些有效的工作在一定程度上缓解了 token 不平衡现象,并成为大多数 NMT 模型的事实标准。虽然基于子词的 NMT 模型已经取得了显着的改进,但它们仍然存在 token 级别频率不平衡现象,如表 1 所示。

此外,目前的 NMT 模型一般会为目标 token 分配相同的训练权重,而不考虑其频率。由于低频 token 在训练集中所占比例较小,NMT 模型很可能会忽略它们产生的损失,导致与它们相关的参数无法得到充分训练,进而导致 NMT 模型倾向于优先考虑输出流畅度而非翻译充分性,并在解码过程中忽略低频 token 的生成,如表 1 所示。从中可以看出,普通 NMT 模型倾向于生成更多高频 token 和更少的低频 token。 然而,低频 token 可能携带关键的语义信息,一旦被忽略,可能会影响翻译质量

为了解决上述问题,我们提出了基于目标 token 频率的 token 级自适应训练目标。我们的目标是在训练期间为那些有意义但相对低频的 token 分配更大的损失权重,以便模型更多地了解它们。为了探索适合 NMT 的自适应目标,我们首先将其他任务中现有的自适应目标应用于 NMT 并分析其性能。我们发现,虽然它们可以对低频 token 的翻译带来适度的改进,但它们对高频 token 的翻译造成了很大的损害,导致整体性能明显下降。这意味着目标应该首先确保高频 token 的训练。然后,根据我们的观察,我们提出了两个基于目标 token 频率的 token 级自适应目标设计的启发式标准。最后,我们根据标准为不同的应用场景提供了两种具体形式。我们的方法在中英、中韩和英德翻译任务上取得了持续的翻译质量提升,特别是在包含更多低频标记的句子上,与基线相比,BLEU 分别提高了 1.68、1.02 和 0.52。进一步的分析表明,我们的方法还可以提高翻译的词汇多样性。 我们的贡献可以总结如下:
• 我们分析了现有自适应目标在 NMT 中的性能。基于我们的观察,我们提出了两个设计标记级自适应目标的启发式标准,并提出了两种具体形式来缓解标记不平衡现象带来的问题。
• 实验结果验证了我们的方法不仅可以提高翻译质量,尤其是那些低频标记,还可以提高词汇多样性。

上一篇:构建加速器:在Gradle中利用构建缓存提升性能


下一篇:掌握Eureka:打造高效服务配置中心集成-Eureka Client Application: