[论文阅读]Character-Level Language Modeling with Deeper Self-Attention

文章目录


前言

论文名:Character-Level Language Modeling with Deeper Self-Attention
论文作者:Rami Al-Rfou  et.al.
机构:
	Google AI Language
期刊/会议名:AAAI 2019
本文作者:XMU_MIAO
日期:2021/1/16

摘要

  LSTM以及RNN的变种已经展示了在构建字符级别语言模型的卓越性能,这些模型通常是使用随时间截断的反向传播( TBTT,Truncated Backpropagation Through Time)来训练的,而且通常认为它们的成功源于它们记忆长期上下文的能力。。本文,我们展示了一个固定上下文的深度的(64层)transformer模型性能大大优于RNN的变种,在两个流行的benchmarks上取得了最好的效果:在text8上1.13 bits/char,在enwik8上1.06
  为了在这样的深度(64层)取得较好的效果,我们证实了在网络的中间层和中间序列位置增加额外的损失是很重要的。

1、问题背景以及本文要解决的问题

1.1 字符级别的语言模型

  对文本进行字符级别的语言建模是一大挑战,存在以下一些原因:

  • 模型要从头学习大词表中的词
  • 一般的文本在数百甚至上千的时间步的距离上显示依赖性
  • 文本的字符序列较文本的词序列更长,因而也需要更多时间步的计算

1.2 RNN(变种)如何解决字符级别的语言模型

  RNN在文本序列的每个mini-batch上训练,使用序列长度相对较短(即200个tokens)。为了能够处理长序列的上下文,需要按顺序训练min-batch的文本,前一个mini-batch的文本的隐藏层状态会前向传播到当前的mini-batch的文本。此过程称为TBTT(Truncated Backpropagation Through Time)。总之,RNN-based模型利用TBTT(或相关改进算法)处理长文本数据。

1.3 本文要解决的问题

  本文证实了非循环(non-recurrent)模型在字符级别的语言建模上能够取得更好的效果,利用基于self-attention的深度模型进行语言建模,为利于模型收敛,增加了一些额外的损失,此外,位置编码也做了一些改变。

2、如何解决该问题?

  本文采用基于self-attention的深度网络来处理固定长度的文本输入,确切地说,基于self-attention的深度网络的每一层包括:一个多头self-attention子层,后跟着一个包含两个全连接子层的前馈神经网络。除此之外,为了加速深度模型(64层)的收敛,在中间层和中间位置加上了一些额外的损失函数。

2.1 Transformer Encoder with Causal Attention

  如下图所示(图源original transformer:Attention Is All You Need),本文采用的深度模型是一个多头self-attention子层加上一个有两个全连接子层构成的FFN
[论文阅读]Character-Level Language Modeling with Deeper Self-Attention
  除此之外,为了使得模型符合语言模型的形式,self-attention部分采用了causal-attention,即,每个字符只能关注到其之前出现的字符。这有点类似于original transformer解码器部分的"masked attention"。如下图所示:
[论文阅读]Character-Level Language Modeling with Deeper Self-Attention

2.2 Auxiliary Losses

  为加速深度模型的收敛,增加了以下三个额外的损失项:Multiple PositionsIntermediate Layer LossesMutiple Targets,以下分别进行详细介绍。

2.2.1 Multiple Postions

[论文阅读]Character-Level Language Modeling with Deeper Self-Attention
  原来的模型预测是在最后一层进行,现在将每个样本进行一次预测变为进行L(序列长度)次预测。RNN-based模型中是标准做法,示意图如Figure 2所示。

2.2.2 Intermediate Layer Losses

[论文阅读]Character-Level Language Modeling with Deeper Self-Attention
  除了模型最后一层用于预测,Intermediate Layer Losses将中间层的所有位置都用于预测,由此产生了各个层进行预测的损失。但随着训练的进行,模型的低层对该损失的贡献越来越少。若模型总共有 n n n层,那么第 l l l层在训练进行了 l / 2 n l/2n l/2n之后,其会停止对该损失的贡献。举个例子,模型总共10层,那么第2层的各个位置预测在进行了 2 10 ∗ 2 = 1 10 \frac{2}{10*2}=\frac{1}{10} 10∗22​=101​之后便停止了。这种衰减策略会让所有中间层在训练进行了1/2后停止预测。

2.2.3 Mutiple Targets

[论文阅读]Character-Level Language Modeling with Deeper Self-Attention
  一般来说每个位置只会进行一个字符的预测,在Mutiple Targets中,每个位置进行两个字符的预测。除了正常预测的一个字符外,另外一个字符的预测损失在被加入对应的层预测损失之前会乘上0.5。

2.1 Positional Embeddings

  在Original Transformer,在Word Embeddings上会加上positional Embeddings。在我们的模型中,由于模型更深(64层)我们猜测这些位置信息在层之间传播过程中可能会丢失。为了解决这个问题,将固定的位置编码变为可学习的位置编码,并且在每一层的输入都添加该位置编码。假设模型有 N N N层,序列长度为 L L L,可学习的位置编码维度是512,那么就会额外多出 512 × N × L 512\times N\times L 512×N×L的参数。

3、实验分析(主要)

1.在 t e x t 8 text8 text8数据集上相较于之前模型的结果:
[论文阅读]Character-Level Language Modeling with Deeper Self-Attention
2.在 e n w i k 8 enwik8 enwik8数据集上相较于之前模型的结果:
[论文阅读]Character-Level Language Modeling with Deeper Self-Attention

总结

  字符级别的语言建模被基于循环(RNN-based)的神经网络主导。本文提出一种基于self-attention的深层模型,并额外加上一些损失项帮助模型收敛,该模型在两个主流数据集上取得最好的效果。

上一篇:ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding【representation】


下一篇:【Paper Reading】Text Classification Using Label Names Only A Language Model Self-Training Approach