时间序列分析——概念叙述

本文总结了一些时间序列分析中可能考到的概念解释。

Part 1:三大模型

谱函数:设平稳序列\(\{X_t\}\)有自协方差函数\(\{\gamma_k\}\),如果有\([\pi,\pi]\)上的单调不减右连续函数\(F(\lambda)\),使得

\[\gamma_k=\int_{-\pi}^{\pi}e^{{\rm i}k\lambda }{\rm d}F(\lambda),\quad F(-\pi)=0,\quad k\in\mathbb{Z}, \]

就称\(F(\lambda)\)是\(\{X_t\}\)或\(\{\gamma_k\}\)的谱分布函数。

谱密度:设平稳序列\(\{X_t\}\)有自协方差函数\(\{\gamma_k\}\),如果有\([\pi,\pi]\)上的非负函数\(f(\lambda)\),使得

\[\gamma_k=\int_{-\pi}^{\pi}f(\lambda)e^{{\rm i}k\lambda}{\rm d}\lambda,\quad k\in\mathbb{Z}, \]

就称\(f(\lambda)\)是\(\{X_k\}\)或\(\{\gamma_k\}\)的谱密度函数或功率谱密度。

AR(p)模型:如果\(\{\varepsilon_t\}\)是白噪声\({\rm WN}(0,\sigma^2)\),实数\(a_1,\cdots,a_p(a_p\ne 0)\)使得多项式\(A(z)\)的零点都在单位圆外

\[A(z)=1-\sum_{j=1}^pa_jz^j\ne 0,\quad |z|\le 1, \]

就称\(p\)阶差分方程

\[X_t=\sum_{j=1}^pa_jX_{t-j}+\varepsilon_t,\quad t\in\mathbb{Z} \]

是一个\(p\)阶自回归模型,简称为\({\rm AR}(p)\)模型。

最小相位条件:实数\(a_1,\cdots,a_p(a_p\ne 0)\)使得多项式\(A(z)\)的零点都在单位圆外:

\[A(z)=1-\sum_{j=1}^pa_jz^j\ne 0,\quad |z|\le 1. \]

MA(q)模型:设\(\{\varepsilon_t\}\)是白噪声\({\rm WN}(0,\sigma^2)\),如果实数\(b_1,b_2,\cdots,b_q(b_q\ne 0)\)使得

\[B(z)=1+\sum_{j=1}^qb_jz^j\ne 0,\quad |z|<1, \]

就称

\[X_t=\varepsilon_t+\sum_{j=1}^qb_j\varepsilon_{t-j},\quad t\in\mathbb{Z} \]

是\(q\)阶滑动平均模型,简称为\({\rm MA}(q)\)模型。如果进一步要求\(B(z)\)在单位圆上也没有零点:\(B(z)\ne 0\)当\(|z|\le 1\),就称之为可逆的\({\rm MA}(q)\)模型

ARMA(p, q)模型:设\(\{\varepsilon_t\}\)是\({\rm WN}(0,\sigma^2)\),实系数多项式\(A(z)\)和\(B(z)\)没有公共根,满足\(b_0=1\),\(a_pb_q\ne 0\)和

\[A(z)=1-\sum_{j=1}^pa_jz^j\ne 0,\quad |z|\le 1;\\ B(z)=1+\sum_{j=1}^qb_jz^j\ne 0,\quad |z|<1, \]

就称差分方程

\[X_t=\sum_{j=1}^pa_jX_{t-j}+\sum_{j=1}^qb_j\varepsilon_{t-j},\quad t\in\mathbb{Z} \]

是一个自回归滑动平均模型,简称为\({\rm ARMA}(p,q)\)模型。如果进一步要求\(B(z)\)在单位圆上无根,即\(B(z)\ne 0\)当\(|z|=1\),则称为可逆的\({\rm ARMA}(p,q)\)模型

有理谱密度:形如

\[f(\lambda)=\frac{\sigma^2}{2\pi}\left|\frac{B(e^{{\rm i}\lambda})}{A(e^{{\rm i}\lambda})} \right|^2 \]

的谱密度称为有理谱密度。

白噪声的\(\chi^2\)检验:作原假设\(H_0:\{X_t\}\)是独立白噪声,对立假设\(H_1:\{X_t\}\)是相关序列。先于样本,计算自相关系数,取\(m\le\sqrt{N}\),构造检验统计量

\[\hat \rho_k=\frac{\sum_{t=1}^{N-k}(x_t-\bar x_N)(x_{t+k}-\bar x_N)}{\sum_{t=1}^{N-k}(x_t-\bar x_N)^2},\\ \hat\chi^2(m)\xlongequal{def}N(\hat\rho_1^2+\hat\rho_2^2+\cdots+\hat\rho_m^2), \]

由于在原假设下\(\hat\chi^2(m)\)近似服从\(\chi^2(m)\)分布,所以当\(\hat\chi^2(m)>\chi^2_m(\alpha)\)时拒绝原假设,否则接受\(\{X_t\}\)是白噪声的假设。


Part 2:时间序列的预报

最佳线性预测:设\(Y\)和\(X_j(1\le j\le n)\)是均值为零,方差有限的随机变量,如果\(\boldsymbol a\in\mathbb{R}^n\),使得对任何的\(\boldsymbol{b}\in\mathbb{R}^n\),有

\[\mathbb{E}(Y-\boldsymbol a'\boldsymbol X)^2\le \mathbb{E}(Y-\boldsymbol b'\boldsymbol X)^2, \]

就称\(\boldsymbol a'\boldsymbol X\)是用\(X_1,X_2,\cdots,X_n\)对\(Y\)进行预测的最佳线性预测。记作\(L(Y|\boldsymbol X)\)。

如果\(\mathbb{E}(Y)=b\),\(\mathbb{E}(\boldsymbol X)=\boldsymbol \mu\),则用\(X_1,\cdots,X_n\)对\(Y\)进行预测时的最佳线性预测是

\[L(Y|\boldsymbol X)=L(Y-b|\boldsymbol X-\boldsymbol \mu)+b. \]

决定性平稳序列:设\(\{X_n\}\)是零均值平稳序列,记\(\boldsymbol X_{n,m}=(X_n,X_{n-1},\cdots,X_{n-m+1})\),定义

\[\hat X_{n+1,m}=L(X_{n+1}|\boldsymbol X_{n,m}),\\ \sigma_{1,m}^2=\mathbb{E}(X_{n+1}-\hat X_{n+1,m})^2 ,\\ \sigma_1^2=\lim_{m\to \infty}\sigma_{1,m}^2, \]

如果\(\sigma_1^2=0\),则称\(\{X_t\}\)是决定性平稳序列。否则称\(\{X_t\}\)是非决定性平稳序列,\(\sigma_1^2\)是一步预测的均方误差

纯非决定性平稳序列:设\(\{X_n\}\)是非决定性的平稳序列,记\(\boldsymbol X_{n,m}=(X_n,X_{n-1},\cdots,X_{n-m+1})\),定义

\[\hat X_{n+k,m}=L(X_{n+k}|\boldsymbol X_{n,m})\\ \sigma_{k,m}^2=\mathbb{E}(X_{n+k}-\hat X_{n+k,m})^2\\ \sigma_k^2=\lim_{m\to \infty}\sigma_{k,m}^2, \]

如果\(\lim\limits_{k\to \infty}\sigma_k^2=\gamma_0\),就称\(\{X_t\}\)是纯非决定性平稳序列。

Wold表示定理:任一非决定性的零均值平稳序列\(\{X_t\}\)可以表示成

\[X_t=\sum_{j=0}^{\infty}a_j\varepsilon_{t-j}+V_t=U_t+V_t,\quad t\in\mathbb{Z}. \]

其中\(\{\varepsilon_t\}\)是零均值白噪声,\(\{U_t\}\)是和\(\{V_t\}\)正交的平稳序列,\(\{V_t\}\)是决定性平稳序列。称一步预测误差\(\varepsilon_t\)为\(\{X_t\}\)的(线性)新息序列,\(\{a_j\}\)是\(\{X_t\}\)的Wold系数,\(\sigma^2=\mathbb{E}(\varepsilon_t^2)\)为一步预测的均方误差。

样本新息:在有限历史的时间序列\(\{X_t\}\)中,定义\(\boldsymbol X_{n}=(X_n,X_{n-1},\cdots,X_1)\),称

\[Z_n=X_n-L(X_n|\boldsymbol{X}_{n-1}),\quad n\in\mathbb{Z} \]

为样本新息。


Part 3:ARMA模型的参数估计

AR(p)模型的Yule-Walker估计:先计算样本自协方差函数

\[\hat\gamma_k=\frac{1}{N}\sum_{t=1}^{N-k}(x_t-\bar x_N)(x_{t+k}-\bar x_N), \]

再由样本Yule-Walker方程计算矩估计:

\[\hat{\boldsymbol \gamma}_p=\hat{\Gamma}_p\hat{\boldsymbol a}_p,\quad \hat\sigma^2=\hat\gamma_0-\hat{\boldsymbol \gamma}_p'\hat{\boldsymbol a}_p. \]

AR(p)模型的最小二乘估计:对观测数据\(x_t\)零均值化,得到\(y_t=x_t-\bar x_N\)。将\(\hat d_1,\cdots,\hat d_p\)作为\(a_1,\cdots,a_p\)的最小二乘估计,如果它使得残差平方和

\[S(d_1,\cdots,d_p)=\sum_{j=p+1}^N[y_t-(d_1y_{t-1}+d_2y_{t-2}+\cdots+d_py_{t-p})]^2 \]

达到最小,另外,白噪声方差\(\sigma^2\)的最小二乘估计是

\[\hat\sigma^2=\frac{1}{N-p}S(\hat d_1,\cdots,\hat d_p). \]

AR(p)模型的最大似然估计:对观测数据\(x_t\)进行零均值化得到\(y_t\)。设\({\rm AR}(p)\)模型的白噪声\(\varepsilon_t=A(\mathscr B)X_t\)服从正态分布,则似然函数为

\[L(\boldsymbol a,\sigma)=\left(\frac{1}{2\pi\sigma^2} \right)^{\frac{N-p}{2}}\exp\left[-\frac{1}{2\sigma^2}\sum_{t=p+1}^N\left(y_t-\sum_{j=1}^pa_jy_{t-j} \right)^2 \right] \]

使似然函数达到最大的\(\hat{\boldsymbol a}_p\)和\(\hat\sigma^2\)为\(\boldsymbol a_p\)和\(\sigma^2\)的极大似然估计。

MA(q)模型的矩估计:通过样本\(x_t\)计算自协方差函数\(\hat \gamma_k\),解矩估计方程组:

\[\hat \gamma_k=\sigma^2\sum_{j=0}^kb_jb_{j+k},\quad 0\le k\le q \]

得到的满足可逆条件的解\(\hat{\boldsymbol b}_q\)和对应的\(\hat\sigma^2\)称为\({\rm MA}(q)\)模型的矩估计。

MA(q)模型的逆相关函数估计:先利用\(\{x_t\}\)的样本自协方差函数\(\hat\gamma_k\)建立一个\({\rm AR}(p_N)\)模型,这里\(p_N\)可以是\({\rm AR}\)模型的AIC定阶。然后对\(p\xlongequal{def}p_N\),解样本Yule-Walker方程,得到样本Yule-Walker系数

\[(\hat a_{p,1},\cdots,\hat a_{p,p}),\quad \hat\sigma_p^2. \]

基于此,计算样本逆相关函数

\[\hat\gamma_y(k)=\frac{1}{\hat\sigma_p^2}\sum_{j=0}^{p-k}\hat a_{p,j}\hat a_{p,j+k},\quad k=0,1,\cdots,q,\quad \hat a_{p,0}=-1. \]

这是逆谱密度对应的\({\rm MA}(p)\)序列的自协方差函数,再将其视为\({\rm AR}(p)\)序列,利用样本Yule-Walker方程解出模型系数

\[\hat{\boldsymbol b}_q=(\hat b_1,\cdots,\hat b_q),\quad \hat \sigma^2. \]

MA(q)序列的新息估计:给定观测数据\(x_1,\cdots,x_N\),取\(m=o(N^{1/3})\),计算样本自协方差函数\(\hat\gamma_0,\cdots,\hat\gamma_1\),\(\boldsymbol b\)和\(\sigma^2\)的新息估计由下面的递推公式得到:

\[\boldsymbol {b}=(\hat b_1,\cdots,\hat b_q),\quad \hat\sigma^2=\hat\nu_m. \\ \hat\nu_0=\gamma_0,\\ \hat\theta_{n,n-k}=\hat\nu_k^{-1}\left[\hat\gamma_{n-k}-\sum_{j=0}^{k-1}\hat\theta_{k,k-j}\hat\theta_{n,n-j}\hat\nu_j \right],\quad 0\le k\le n-1,\\ \hat\nu_n=\hat\gamma_0-\sum_{j=0}^{n-1}\hat\theta_{n,n-j}^2\hat\nu_j,\quad 1\le n\le m. \]

AIC定阶:如果根据问题的背景或数据的特性能够判定\({\rm MA}(q)\)模型阶数\(q\)的上阶是\(Q_0\),则对于\(m=0,1,2,\cdots,Q_0\),按照一定的估计方法逐个拟合\({\rm MA}(m)\)模型,记白噪声方差的估计量为\(\hat\sigma^2_m\)。定义AIC函数为

\[{\rm AIC}(m)=\ln(\hat\sigma_m^2)+\frac{2m}{N},\quad m=0,1,\cdots,Q_0, \]

这里\(N\)是样本个数,\({\rm AIC}(m)\)的最小值点\(\hat q\)(如不唯一,应取小的)称为\({\rm MA}(q)\)模型的AIC定阶。

BIC定阶:如果根据问题的背景或数据的特性能够判定\({\rm AR}(p)\)模型阶数\(p\)的上界是\(P_0\),则对于\(k=0,1,\cdots,P_0\),按照一定的估计方法逐个拟合\({\rm AR}(k)\)模型,记白噪声方差的估计为\(\hat\sigma_k^2\)。定义BIC函数为

\[{\rm BIC}(k)=\ln(\hat\sigma^2_k)+\frac{k\ln N}{N} \]

这里\(N\)是样本个数,\({\rm BIC}(k)\)的最小值点\(\hat p\)(如不唯一,应取小的)称为\({\rm AR}(p)\)模型的BIC定阶。

声明:以上两种定阶方法适用于三种模型中的任意一种,这里只是使用AR和MA作为示范。

ARMA(p, q)模型的矩估计方法:根据观测值计算样本自协方差函数\(\hat\gamma_0,\cdots,\hat\gamma_{k}\),代入到延拓的Yule-Walker方程解出AR部分的系数\(\hat{\boldsymbol a}_p\)。此时

\[z_t=x_t-\sum_{j=1}^p\hat a_jx_{t-j},\quad t=p+1,p+2,\cdots,N \]

是一个\({\rm MA}(q)\)序列的近似观测数据,使用MA序列的参数估计方法就可以估计出\({\rm MA}(q)\)部分的\(\boldsymbol b_q\)和\(\sigma^2\)。

ARMA(p, q)模型的自回归逼近法:取自回归阶数的上界\(P_0=[\sqrt{N}]\),采用\({\rm AIC}\)定阶方法得到AR模型的阶数估计\(\hat p\),以及自回归系数的估计\((\hat a_1,\cdots,\hat a_p)\),计算残差

\[\hat\varepsilon_t=x_t-\sum_{j=1}^p\hat a_jx_{t-j},\quad t=\hat p+1,\hat p+2,\cdots,N, \]

然后写出近似的\({\rm ARMA}(p,q)\)模型:

\[x_t=\sum_{j=1}^p a_jx_{t-j}+\hat\varepsilon_t+\sum_{j=1}^qb_j\hat\varepsilon_{t-j},\quad t=L+1,\cdots,N, \]

这里\(L=\max(\hat p,p,q)\),\(a_j\)、\(b_k\)是待估参数,对目标函数

\[Q(\boldsymbol{a},\boldsymbol{b})=\sum_{t=L+1}^N\left(x_t-\sum_{j=1}^pa_jx_{t-j}-\sum_{j=1}^q b_j\hat\varepsilon_{t-j} \right)^2 \]

极小化,得到最小二乘估计\((\hat a_1,\cdots,\hat a_p,\hat b_1,\cdots,\hat b_q)\),并得到其最小二乘估计量为

\[\hat\sigma^2=\frac{1}{N-L}Q(\hat{\boldsymbol a},\hat{\boldsymbol b}). \]

ARMA(p, q)模型的极大似然估计:由逐步预报公式得到,\(m=\max(p,q)\)时

\[\hat X_{k+1}=\left\{\begin{array}l \sum_{j=1}^k\theta_{k,j}Z_{k+1-j}.&1\le k\le m; \\ \sum_{j=1}^p a_jX_{k+1-j}+\sum_{j=1}^q\theta_{k,j}Z_{k+1-j},&k>m. \end{array}\right. \]

定义样本新息为\(Z_k=X_k-\hat X_k\),预测误差为\(r_{k-1}=\sigma^2\nu_{k-1}\),这里递推预测系数\(\theta_{k,j}\)和预测误差项\(\nu_k\)都是与\(\sigma^2\)无关的量,由模型参数\(\boldsymbol\beta=(\boldsymbol a_p',\boldsymbol b_q')'\)唯一确定。极大似然函数为

\[\begin{aligned} L(\boldsymbol \beta,\sigma^2)&=\frac{1}{(2\pi)^{n/2}(r_0r_1\cdots r_{n-1})^{1/2}}\exp\left(-\frac{1}{2}\sum_{j=1}^nZ_j^2/r_{j-1} \right)\\ &=\frac{1}{(2\pi)^{N-2}(\sigma^{2N}\nu_0\nu_1\cdots\nu_{n-1})^{1/2}}\exp\left(-\frac{1}{2\sigma^2}\sum_{k=1}^N\frac{Z_k^2}{\nu_{k-1}} \right), \end{aligned} \]

使极大似然函数取最大值的\(\hat{\boldsymbol \beta}\)和\(\hat \sigma^2\)即为\({\rm ARMA}(p,q)\)的极大似然估计。

约化似然函数:在ARMA模型的极大似然函数中,定义

\[S(\boldsymbol\beta)=\sum_{k=1}^{N}\frac{Z_{k}^2}{\nu_{k-1}},\quad \sigma^2=\frac{1}{N}S(\boldsymbol \beta). \]

将\(\sigma^2\)代入极大似然函数得到的

\[l(\boldsymbol\beta)\xlongequal{def}\frac{1}{N}\ln(\nu_0\nu_1\cdots\nu_{N-1})+\ln\left(\frac{S(\boldsymbol \beta)}{N} \right) \]

称为约化似然函数。

上一篇:Red Hat安装Anaconda3到自定义位置并手动配置环境变量


下一篇:Casual Discovery from Incomplete Data: A Deep Learning Approach(AAAI 2020)