这里有几个小细节:
- 论文使用的是宽卷积
Specifically, we zero-pad the beginning of the sequence with k−1 elements, assuming the first input element is the beginning of sequence marker which we do not predict and k is the width of the kernel
- 对于文本长度更大的数据集而言,论文使用了更深的网络结构以获取其Long-Term记忆。
本篇论文做出的贡献如下:
- 提出一种基于线性门控单元(Gated Linear Units)的卷积网络并将其运用于语言建模。GLU在保持一定非线性能力的同时通过为梯度提供线性的传播路径使得在深度架构中能够有效减少“梯度消失”的问题。
- 在GBW数据集上证明了该卷积网络性能优于其他语言模型:如LSTMs,并在段落数据集WikiText-103上验证了该模型处理长距离依赖(long-range depenencies)的能力。
- 证明了GLU比LSTM-style门控具有更高的准确度和更快的收敛速度。