?
时间序列分析|基本概念
?
?
此乃时间序列分析系列讲义开篇之作,旨在介绍时间序列分析的现实背景和一些基本概念,并在最后介绍两个典型例子。
时间序列与时间序列分析日常生活和工作中经常会遇到跟时间有关的现象,需要对其进行分析和研究,比如早晨上课前半小时食堂吃早餐剩余人数的变化情况,某小区一年内房源成交套数的变化情况以及太阳黑子数十年内的变化情况等都属于时间序列的范畴,前面三个例子代表了两类典型的时间序列形成机制,一类是因人类社会活动而产生的时间序列,一类是因自然界某种力量产生的时间序列,两者有明显的差异,但都遵循各自内在逻辑,做时间序列分析有一个默认的公理——一切时间序列都可以找到规律,只是有些规律被数学模型刻画了,有些规律还未用数学模型刻画罢了,主要差异性体现在数据贴切模型强弱以及从时间序列里找出这些规律的难易程度,作为分析师,当分析结果不理想的时候不能够一味去责备数据不好,因为你不是数据生产商,数据的产生往往是不可控的,而你的身份是数据分析师,职责就是去寻找数据里面的规律,这也是事在人为的。
如果要给时间序列下一个定义的话,可以这么说,将观测到的若干数据按照某个时间顺序进行排列而构成一个观测数列便是时间序列,时间序列分析就是利用一定的技术手段对这个观测序列进行分析和研究,以期寻找序列里面的规律,并将规律加以应用,指导未来的生产生活等。
时间序列分析基本概念(1)平稳性
做时间序列分析首先要对时间序列作平稳性假设,时间序列的平稳性是指时间序列的统计性质不随时间推移而变化,研究时间序列很重要的一个出发点就是希望利用历史数据的来对未来进行预测,如果时间序列不是平稳的,由历史数据得到的统计性质不再适用于未来的情况,那么研究时间序列也就没有什么意义了,反过来想,如果时间序列是平稳的,那么就可以从历史数据学得知识发现统计规律,并将这个统计规律应用于未来的情况,对未来进行预测和指导。平稳性又分强平稳和弱平稳。
(2)强平稳和弱平稳
如果一个时间序列 { X t } \{X_t\} {Xt?}是强平稳的,当且仅当对所有的 t 1 , t 2 , ? ? , t n t_1, t_2, \cdots, t_n t1?,t2?,?,tn?和任意的n,k,子时间序列 { X t 1 , X t 2 , ? ? , X t n } \{X_{t_1}, X_{t_2},\cdots, X_{t_n}\} {Xt1??,Xt2??,?,Xtn??}与子时间序列的 { X t 1 ? k , X t 2 ? k , ? ? , X t n ? k } \{X_{t_1-k}, X_{t_2-k},\cdots, X_{t_n-k}\} {Xt1??k?,Xt2??k?,?,Xtn??k?}的联合分布函数相同。
如果一个时间序列 { X t } \{X_t\} {Xt?}是弱平稳的,当且仅当
- 时间序列的均值函数 μ ( X t ) \mu(X_t) μ(Xt?)是一个常数。
- 协方差 γ ( X t 1 , X t k ) = γ ( X 1 , X k ) \gamma(X_{t_1}, X_{t_k}) = \gamma(X_1, X_k) γ(Xt1??,Xtk??)=γ(X1?,Xk?)仅与时间间隔相关,与位置无关。
(3) 特征迁移
所谓特征迁移,就是每过一段时间,时间序列的统计性质会发生了变化,从这点上来讲,发生了特征迁移的时间序列肯定是不平稳的,举个例子,某航空公司某条线路2019年-2020年秋冬航季平均乘客人数在100号人左右,而2020年-2021年春夏航季受疫情影响,乘客人数仅在50号人左右,差距就非常明显了。在这种情况下,拿2019年-2020年秋冬航季和2020年-2021年春夏航季两个航季的历史数据一起去训练模型,就相当于是增加了各种噪声,预测精度是会下降的。解决特征迁移的办法是不断的截取不同时间内的数据来训练模型做预测。
(4)白噪声
看过谍战片或者用过黑白电视机朋友应该的都知道,当信号不好的时候机器会发出一种杂乱无章的声音,那就是白噪声,白噪声源于声学,其严格的数学定义如下
如果一个时间序列 { X t } \{X_t\} {Xt?}是白噪声的,当且仅当
- 均值函数 μ ( X t ) = 0 \mu(X_t) =0 μ(Xt?)=0。
- 协方差 γ ( X t 1 , X t k ) = σ \gamma(X_{t_1}, X_{t_k}) = \sigma γ(Xt1??,Xtk??)=σ。
于是白噪声序列被描述成均值为0,协方差为常数的序列,协方差等同于相关函数,从白噪声的定义可以看到白噪声一定事平稳的,反过并不成立,不能将白噪声序列笼统的称为没有规律的序列,如果白噪声过程服从高斯分布,则它是“高斯白噪声”。类似的,还有泊松白噪声、柯西白噪声等。对白噪声序列的研究方兴未艾,前景广阔。
两个例子例1 下图是某国早些年的航空乘客人数统计数据,可以看到乘客人数是每个月每个月进行统计的,这是一段时间内的累计数,每个月乘飞机的人数都超过了110人。
为了进一步观测乘客人数的变化情况,可以对数据进行可视化,用折线图把乘客人数画出来,从下图看到随着时间的推移,乘客人数呈上升趋势,可以推断该国的航空事业正处于上升期,同时出现每隔一段时间上升隔一段时间下降的周期性特征,每个周期变动之间又蕴含一些细微的抖动。
例2 下图是某航司2021年新航季某线路的航空乘客人数统计数据,可以看到乘客人数是每班每班进行统计的,但是不是每天都飞的,仔细查看该航班的班期是246(每周二,四,六飞),乘客人数都在100人以上。
也把折线图画出来,从下面折线图看到乘客人数在100到160之间波动,隔那么一段时间有上升也有下降,看不出明显的规律来,可以肯定的不是白噪声序列,因为协方差不是常数,至于是不是平稳序列以及是否发生了特征迁移还需要进行严格,在此也不作深入论述,今天主要是让读者感性的认识一下时间序列。
对比例1和例2,比较明显的是例1的时间间隔是相等的,而例2的时间间隔是不相等的,但是也可以对例2进行周累加从而达到等间隔的效果,同时,例1有比较好的趋势性和周期性,而例2却很难发现其周期性和趋势性,这也是为什么有些时间序列很难捕捉规律和预测,而有些时间序列却比较容易研究和预测,针对一般的时间序列总存在一些常规的手段进行研究,对于一些特殊的时间序列总可以找到一些方式方法转化一般的时间序列再进行研究分析,这些技术都会在后面的系列讲义中详细论述。
1,平稳性
https://www.zhihu.com/question/21982358
2,特征迁移
https://www.zhihu.com/question/21229371/answer/570028703
3,白噪声
https://www.knowpia.cn/pages/%E7%99%BD%E5%99%AA%E5%A3%B0