序列建模:时间卷积网络取代RNN(An Empirical Evaluation of Generic Convolutional and Recurrent)论文 pdf

下载地址:https://u20150046.ctfile.com/fs/20150046-376633283

作者:Shaojie Bai, J. Zico Kolter, Vladlen Koltun

论文摘要

对于大多数深度学习实践者来说,序列建模与循环网络是同义词。然而,最近的研究结果表明,卷积架构在语音合成和机器翻译等任务上的表现优于循环网络。给定一个新的序列建模任务或数据集,应该使用哪种架构?我们对序列建模的一般卷积和循环架构进行了系统的评价。我们在广泛的标准任务中评估这些模型。我们的结果表明,一个简单的卷积架构在不同的任务和数据集上的表现优于LSTM等典型的循环网络。我们的结论是,需要重新考虑序列建模和循环网络之间的共同关联,卷积网络应该被视为序列建模任务的一个自然起点。我们提供了相关代码:http://github.com/locuslab/TCN

概要总结

本文的作者质疑了一个常见假设,即循环架构应该是序列建模任务的默认起点。他们的结果表明,时间卷积网络(TCNs)在多个序列建模任务中明显优于长短期记忆网络(LSTMs)和门控循环单元网络(GRUs)等典型的循环架构。

核心思想

1.时间卷积网络(TCN)是基于最近提出的最佳实践(如扩张卷积和残差连接)设计的,它在一系列复杂的序列建模任务中表现得明显优于通用的循环架构。

2.TCN表现出比循环架构更长的记忆,因此更适合需要较长的历史记录的任务。

最重要的成果

1.在序列建模任务上提供了卷积架构和循环架构的广泛、系统的比较。

2.设计了一个卷积架构,它可以作为序列建模任务的一个方便且强大的起点。

AI社区的评价

在使用RNN之前,一定要先尝试CNN。你会惊讶于你能走多远。——特斯拉人工智能主管Andrej Karpathy。

未来研究方向

为了提高TCN在不同序列建模任务中的性能,需要进一步精化架构和算法。

可能的应用

TCN的提出可以提高依赖于循环架构的AI系统的序列建模能力,包括:

1.机器翻译;

2.语音识别;

3.音乐和语音产生。

 

上一篇:学习---论文笔记:OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks


下一篇:ImageNet Classification with Deep Convolutional Neural Networks