Informer:改进Transformer的长序列时序预测模型

Informer:改进Transformer的长序列时序预测模型

Submitted on 14 Dec 2020 (v1), last revised 28 Mar 2021 (this version, v3)

Informer:改进Transformer的长序列时序预测模型

关注人工智能学术前沿 回复 :ts21

5秒免费获取论文pdf文档,及项目源码

 

 

摘要

许多现实世界的应用需要长序列时间序列的预测,例如电力消耗规划预测。长序列时间序列预测(LSTF)要求模型具有较高的预测能力,即能够准确地捕捉输出与输入之间的长期依赖关系。近年来的研究表明,Transformer具有提高预测能力的潜力。然而,Transformer存在几个严重的问题,使其不能直接适用于LSTF,包括二次时间复杂度、高内存使用量和编码器-解码器体系结构固有的局限性。为了解决这些问题,我们为LSTF设计了一种高效的基于Transformer的模型,名为Informer,该模型具有三个显著特征:

(1)基于概率稀疏的自注意机制,在时间复杂度和内存使用方面实现了O(L log L),在序列依赖对齐方面具有相当的性能。

(2)自我注意提取通过将级联层输入减半来突出主导注意,并有效地处理极长的输入序列。

(3)生成式解码器虽然概念简单,但对长时间序列序列进行一次正向操作而不是一步一步地进行预测,大大提高了长序列预测的推理速度。

在4个大规模数据集上的大量实验表明,Informer方法显著优于现有方法,为LSTF问题提供了一种新的解决方案。

 

1.介绍

 

时间序列预测是许多领域的关键因素,如传感器网络监测(Papadimitriou和Yu 2006)、能源和智能电网管理经济和金融(Zhu和Shasha 2002)和疾病传播分析(Matsubara et al. 2014)。在这些场景中,我们可以利用大量关于过去行为的时间序列数据来做出长期预测,即长序列时间序列预测(LSTF)。

 

关键问题

目前现有的模型对更长的时间序列预测时,预测效果会随着序列长度增加而不断降低。

 

以LSTM为例进行实验数据分析

作为实证实例,图(1)给出了在真实数据集上的预测结果,其中LSTM网络对某变电站逐时温度从短期(12 points,0.5天)到长期(480points,20天)的预测结果。当预测长度大于48点(图(1b)中的实心星形)时,整体性能差距较大,MSE上升到性能不理想,推理速度急剧下降,LSTM模型开始失效。

Informer:改进Transformer的长序列时序预测模型

 

作者的解决思路

最近的研究表明,与RNN模型相比,Transformer模型在捕获远程依赖关系方面表现出了优越的性能。自注意机制可以将网络信号的最大传播路径长度减小到理论最短的O(1),避免了递归结构,变压器在求解LSTF问题上表现出很大的潜力。

Transformer在NLP任务上产生了不错的结果(Brown et al. 2020),但是,由于Transformer的计算特性,需要大量的内存资源和计算资源,数十个GPU的训练和昂贵的部署成本使这些模型在LSTF问题上无法负担。

 

作者试图解决这个问题:我们能否改进Transformer模型,使其在计算、内存和架构方面更高效,同时保持更高的预测能力。

 Transformer (Vaswani et al. 2017)在解决LSTF问题时有三个显著的局限性

 

  1. 自我注意的二次计算。自注意机制的原子操作,即规范点积,使每层的时间复杂度和内存使用量为O(L^2)。

  2. 对长输入进行堆叠时的内存瓶颈。. j编码器/解码器层的堆栈使总内存使用量为O(J,L^2),这限制了接收长序列输入时模型的可伸缩性。

  3. 预测长期产出的速度骤降。动态Transformer的动态译码使得逐步推理与基于RNN的模型一样慢(图(1b))

Informer:改进Transformer的长序列时序预测模型

作者首先总结了其他学者解决这三个局限性的研究工作,然后介绍了自己的研究是如何解决上述三个局限性的。

 

 为此目的,我们的工作明确地探讨了这三个问题。我们研究了自我注意机制中的稀疏性,改进了网络组件,并进行了广泛的实验。本文的贡献总结如下

1.我们提出了Informer来成功地提高LSTF问题的预测能力,这验证了类Transformer模型在捕获长序列时间序列输出和输入之间的个体长期依赖性方面的潜在价值。

2.我们提出了概率自我注意机制来有效地替代典型的自我注意。它实现了O(Llog L)时间复杂度和O(Llog L)内存使用在依赖对齐上。

3.在J-堆叠层中,我们提出了对优先注意分数占主导地位的自注意提取操作,将空间复杂度大幅度降低到O[(2-€) * L*log L],这有助于接收长序列输入。

4.我们提出了生成式译码器,该译码器只需要向前一步就可以获得长序列输出,同时避免了推理阶段累积误差的扩散。

Informer:改进Transformer的长序列时序预测模型

图2: Informer 模型概述。左:编码器接收大量长序列输入(绿色序列)。我们用所提出的概率自我注意代替典型自我注意。蓝色梯形是自我注意力提取操作,以提取支配注意力,大幅减少网络规模。层堆叠副本增加鲁棒性。右图:解码器接收长序列输入,将目标元素填充为零,测量特征图的加权注意力组成,并以生成式风格立即预测输出元素(橙色系列)。

 

2.Informer模型概述

模型介绍包括三大部分:

1.高效Self-attention机制。

2.编码器:允许在内存使用限制下处理较长的顺序输入。

3.解码器:通过一个前向过程产生长序列输出

具体内容涉及到大量公式介绍与推导过程,如果需要请获取论文资源,自行研究。

关注人工智能学术前沿 回复 :ts21

5秒免费获取论文pdf文档,及项目源码

 

Informer:改进Transformer的长序列时序预测模型

图3:Informer的码器的单个堆栈。

  1. 水平堆栈代表图(2)中编码器副本的单个堆栈。

  2. 表示的是接收整个输入序列的主堆栈。然后,第二个堆栈取输入的一半,随后的堆栈重复。

  3. 红层为点积矩阵,通过对各层进行自我注意蒸馏得到级联减少。

  4. 连接所有的栈特征映射作为编码器的输出。

     

3.实验概述

 

数据集

作者广泛地在4个数据集上进行实验,包括2个为LSTF收集的真实数据集和2个公共基准数据集。

 

2:ETT (Electricity Transformer Temperature)

https://github.com/zhouhaoyi/ETDataset.

是电力长期部署的关键指标。我们从中国两个分开的县收集了两年的数据。为了探究LSTF问题的粒度,我们创建了单独的数据集,分别为fETTh1、ETTh2g (1 hours -level)和ETTm1 (15 min -level)。每个数据点由目标值油温和6个电力负荷特征组成。训练/val/测试是12/4/4个月。

 

ECL (Electricity Consuming Load)

https://archive.ics.uci.edu/ml/datasets/ElectricityLoadDiagrams20112014.

收集321个客户的用电量(Kwh)。由于数据缺失(Li et al. 2019),我们将数据集转换为2年的每小时消耗,并设置MT 320作为目标值。训练/val/测试是15/3/4个月。

 

Weather:

https://www.ncei.noaa.gov/data/local-climatological-data/.

这个数据集包含了近1600个美国地点的当地气候数据,从2010年到2013年的4年,每1小时收集一次数据点。每个数据点每个数据点由目标值湿球数和11个气候特征组成。训练/val/测试是28/10/10个月。

 

基线方法

作者选择了五种时间序列预测方法作为比较,包括ARIMA (Ariyo, Adewumi,和Ayo 2014), Prophet (Taylor和Letham 2018), LSTMa (Bahdanau, Cho,和Bengio 2015), LSTnet (Lai等,2018)和DeepAR (Flunkert, Salinas,和Gasthaus 2017)。

为了更好地探索概率稀疏自我注意在提出的Informer中的表现,作者在实验中纳入了典型自我注意变体(Informery)、高效变体Reformer (Kitaev、Kaiser和Levskaya 2019)和最相关的工作LogSparse自我注意(Li等人2019)。

 

实验结果

Informer:改进Transformer的长序列时序预测模型

 

总结

 

研究了长序列时间序列预测问题,提出了长序列预测的信息源。具体来说,我们设计了概率稀疏自注意机制和提取操作来应对香草变压器二次时间复杂度和二次内存使用的挑战。同时,精心设计的生成式译码器减轻了传统编译码体系结构的局限性。在真实数据上的实验证明了Informer算法在提高LSTF问题预测能力方面的有效性。

 

关注人工智能学术前沿 回复 :ts21

5秒免费获取论文pdf文档,及项目源码

上一篇:AndroidBAT高级面试合集——Binder 通信原理与机制


下一篇:Android之ServiceManager服务