一、时间序列分析
北京每年每个月旅客的人数,上海飞往北京每年的游客人数等类似这种顾客数、访问量、股价等都是时间序列数据。这些数据会随着时间变化而变化。时间序列数据的特点是数据会随时间的变化而变化。
随机过程的特征值有均值、方差、协方差等。如果随机过程的特征随时间变化而变化,那么数据是非平稳的,相反,如果随机过程的特征随时间变化而不变化,则此过程是平稳的。
如图所示:
非平稳时间序列分析时,若导致非平稳的原因是确定的,可以用的方法主要有趋势拟合模型、季节调整模型、移动平均、指数平滑等。
若导致非平稳的原因是随机的,方法主要有ARIMA,以及自回归条件异方差模型等。
二、ARIMA
1、简介
ARIMA通常用于需求预测和规划中。可以用来对付随机过程的特征随着时间变化而非固定。并且导致时间序列非平稳的原因是随机而非确定的。不过,如果从一个非平稳的时间序列开始,首先需要做差分,直到得到一个平稳的序列。模型的思想就是从历史的数据中学习到随时间变化的模式,学到了就用这个规律去预测未来。
ARIMA(p,d,q)
- d是差分的阶数,用来得到平稳序列
- p为相应的自回归项
- q是移动平均项数
2、自回归模型AR
自回归模型描述当前值与历史值之间的关系,用变量自身的历史时间数据对自身进行预测。自回归模型必须满足平稳性。
自回归模型需要先确定一个阶数p,表示用几期的历史值来预测当前值。p阶自回归模型可以表示为:
yt是当前值,u是常数项,p是阶数,r是自相关系数,e是误差
AR的限制:
- 自回归模型是自身的数据进行预测
- 必须具有平稳性
- 必须具有相关性
- 如果自相关系数小雨0.5,则不宜采用
- 自回归只适用于预测与自身前期相关的现象
3、移动平均模型MA
移动平均模型关注的自回归模型中的误差项的累加,q阶自回归过程的公式定义如下:
移动平均模型能有效地消除预测中的随机波动
4、自回归移动平均模型ARMA
自回归模型AR和移动平均模型MA模型相结合,我们就得到了自回归移动平均模型ARMA(p,q),计算公式如下:
5、p、q的确定
(1)
(2)结合最终的预测误差来确定p、q的阶数,在相同的预测误差情况下,根据奥斯卡姆剃刀准则,模型越小越好。平衡预测误差和参数个数,我们可以根据信息准则函数法,来确定模型的阶数。预测误差通常用平方误差即残差平方和来表示。
常用的信息准则函数法:
- ACI == 2*(模型参数个数)-2ln(模型的极大似然函数)
- BIC = ln(n) * (模型中参数的个数)-2ln(模型的极大似然函数值),n是样本容量
6、模型的检验
主要的检验值:
- 检验参数估计的显著性(t检验)
- 检验残差序列的随机性,即残差之间是独立的
残差序列的随机性可以通过自相关函数法来检验,即做残差的自相关函数图