下载地址:https://u20150046.ctfile.com/fs/20150046-376633283
作者:Shaojie Bai, J. Zico Kolter, Vladlen Koltun
论文摘要
对于大多数深度学习实践者来说,序列建模与循环网络是同义词。然而,最近的研究结果表明,卷积架构在语音合成和机器翻译等任务上的表现优于循环网络。给定一个新的序列建模任务或数据集,应该使用哪种架构?我们对序列建模的一般卷积和循环架构进行了系统的评价。我们在广泛的标准任务中评估这些模型。我们的结果表明,一个简单的卷积架构在不同的任务和数据集上的表现优于LSTM等典型的循环网络。我们的结论是,需要重新考虑序列建模和循环网络之间的共同关联,卷积网络应该被视为序列建模任务的一个自然起点。我们提供了相关代码:http://github.com/locuslab/TCN
概要总结
本文的作者质疑了一个常见假设,即循环架构应该是序列建模任务的默认起点。他们的结果表明,时间卷积网络(TCNs)在多个序列建模任务中明显优于长短期记忆网络(LSTMs)和门控循环单元网络(GRUs)等典型的循环架构。
核心思想
1.时间卷积网络(TCN)是基于最近提出的最佳实践(如扩张卷积和残差连接)设计的,它在一系列复杂的序列建模任务中表现得明显优于通用的循环架构。
2.TCN表现出比循环架构更长的记忆,因此更适合需要较长的历史记录的任务。
最重要的成果
1.在序列建模任务上提供了卷积架构和循环架构的广泛、系统的比较。
2.设计了一个卷积架构,它可以作为序列建模任务的一个方便且强大的起点。
AI社区的评价
在使用RNN之前,一定要先尝试CNN。你会惊讶于你能走多远。——特斯拉人工智能主管Andrej Karpathy。
未来研究方向
为了提高TCN在不同序列建模任务中的性能,需要进一步精化架构和算法。
可能的应用
TCN的提出可以提高依赖于循环架构的AI系统的序列建模能力,包括:
1.机器翻译;
2.语音识别;
3.音乐和语音产生。