计量笔记(三) | 线性模型的拟合优度检验

计量笔记专栏

计量笔记(一) | OLS估计量推导

计量笔记(二) | OLS估计量性质

前言

前面通过计量笔记(一) | OLS估计量推导计量笔记(二) | OLS估计量性质我们已经推导出了参数的OLS估计量的矩阵表达式即 β ^ = ( X τ X ) − 1 X τ Y \pmb{\hat\beta} = (X^{\tau}X)^{-1}X^{\tau}Y β^​​β^​​​β^​=(XτX)−1XτY,以及证明了在经典假设成立的条件下参数的OLS估计量的矩阵表达式是最佳线性无偏估计量,以及随机扰动项 σ 2 \sigma^2 σ2的无偏估计 σ ^ 2 \hat\sigma^2 σ^2

接下来就是要对线性模型进行检验,所谓检验可以分为经济意义检验和统计准则检验,经济意义检验就是判断估计参数的正负号以及大小是否恰当,只有通过经济意义检验才能进行统计准则检验。统计准则检验包括拟合优度检验( R 2 R^2 R2检验)、回归模型总体显著性检验( F F F检验)、回归系数的显著性检验( t t t检验)

拟合优度检验

拟合优度是指多元线性回归估计模型对观测值之间的拟合程度,直观上理解是观测值样本点离拟合回归直线上有多近。高斯-马尔可夫定理:在线性模型的经典假设下,参数的最小二乘估计量是线性无偏估计量中方差最小的估计量(BLUE估计量)。但是拟合程度有多好,需要构建拟合优度指标进行衡量

首先需要对 Y Y Y进行总变差分解:
∑ ( y i − y ‾ ) 2 = ∑ [ ( y i − y i ^ ) + ( y i ^ − y ‾ ) ] 2 = ∑ e i 2 + 2 ∑ e i ( y i ^ − y ‾ ) + ∑ ( y i ^ − y ‾ ) 2 \sum{(y_i-\overline{y})^2}= \sum{[(y_i-\hat{y_i})+(\hat{y_i}-\overline{y})]^2}= \sum{e_i^2}+2\sum{e_i(\hat{y_i}-\overline{y})}+\sum{(\hat{y_i}-\overline{y})^2} ∑(yi​−y​)2=∑[(yi​−yi​^​)+(yi​^​−y​)]2=∑ei2​+2∑ei​(yi​^​−y​)+∑(yi​^​−y​)2
下面要先插入OLS的正交性问题

我们在计量笔记(一) | OLS估计量推导中得出 X τ e = 0 X^{\tau}\pmb{e}=\pmb{0} Xτeee=000,由于 Y ^ = X β ^ \hat{Y}=X\hat{\pmb{\beta}} Y^=Xβ​β​​β^​,所以可以得出下式
Y ^ τ e = ( X β ^ ) τ e = β ^ τ X τ e = β ^ τ ⋅ 0 = 0 \hat{Y}^{\tau}\pmb{e} =(X\hat{\pmb{\beta}})^{\tau}\pmb{e} =\hat{\pmb{\beta}}^{\tau}X^{\tau}\pmb{e} =\hat{\pmb{\beta}}^{\tau}\cdot\pmb{0} =0 Y^τeee=(Xβ​β​​β^​)τeee=β​β​​β^​τXτeee=β​β​​β^​τ⋅000=0
两个向量之间的积为0,说明两个向量之间是正交的,由此可见残差向量 e \pmb{e} eee与常数向量 1 \pmb{1} 111正交(残差之和为0)、与解释向量 X τ X^{\tau} Xτ正交,与拟合值向量 Y ^ \hat{Y} Y^正交

如何理解残差向量 e \pmb{e} eee与拟合值向量 Y ^ \hat{Y} Y^正交?由 Y = Y ^ + e Y=\hat{Y}+\pmb{e} Y=Y^+eee可知,拟合值 Y ^ \hat{Y} Y^为被解释变量 Y Y Y向解释变量超平面 X X X的投影,而残差 e \pmb{e} eee就是拟合值 Y ^ \hat{Y} Y^到解释变量超平面 X X X的点到平面的垂直距离(妙)

言归正传,根据OLS的正交性,残差向量与拟合值向量和常数向量正交 ∑ e i ( y i ^ − y ‾ ) = ∑ e i y i ^ − ∑ e i y ‾ = 0 \sum{e_i(\hat{y_i}-\overline{y})}=\sum{e_i\hat{y_i}}-\sum{e_i\overline{y}}=0 ∑ei​(yi​^​−y​)=∑ei​yi​^​−∑ei​y​=0

由此,总变差方程式可以变成下式
∑ ( y i − y ‾ ) 2 = ∑ ( y i − y i ^ ) 2 + ∑ ( y i ^ − y ‾ ) 2 \sum{(y_i-\overline{y})^2}= \sum{(y_i-\hat{y_i})^2}+\sum{(\hat{y_i}-\overline{y})^2} ∑(yi​−y​)2=∑(yi​−yi​^​)2+∑(yi​^​−y​)2
∑ ( y i − y ‾ ) 2 \sum{(y_i-\overline{y})^2} ∑(yi​−y​)2:总离差平方和,Total Sum of Squares, TSS,反映因变量观测值总的变异程度

∑ ( y i − y i ^ ) 2 \sum{(y_i-\hat{y_i})^2} ∑(yi​−yi​^​)2:残差平方和,Residual Sum of Squares, RSS,反映因变量回归估计值总的变异程度,它是因变量观测值总变差中由解释变量解释的那部分变差,也称解释变差

∑ ( y i ^ − y ‾ ) 2 \sum{(\hat{y_i}-\overline{y})^2} ∑(yi​^​−y​)2:回归平方和,Explained Sum of Squares, ESS,反映因变量观测值与估计值之间的总变差

综上分析可知,总离差平方和由残差平方和和回归平方和两部分构成。显然,在总离差平方和一定时,回归平方和越大,残差平方和就会越小,那么因变量回归估计值总的变异程度越能解释因变量观测值总的变异程度,即解释变差的解释能力越强,说明回归模型对观测值的拟合程度越高

定义可决系数 R 2 R^2 R2来描述拟合程度
R 2 = E S S T S S = 1 − R S S T S S R^2=\frac{ESS}{TSS}=1-\frac{RSS}{TSS} R2=TSSESS​=1−TSSRSS​
定义可决系数 R 2 R^2 R2有一个显著的特点:如果观测值 Y i Y_i Yi​不变,可决系数 R 2 R^2 R2将随着解释变量数目的增加而增大。

直观理解是随便加入一个解释变量(即使是对观测值 Y i Y_i Yi​影响很小)也会增强解释变差的解释能力,即使这个变量与观测值 Y i Y_i Yi​无关(即系数为0),可决系数 R 2 R^2 R2起码可以保持不变

那么是否意味着加入越多解释变量,对模型的拟合就越好呢?

计量笔记(二) | OLS估计量性质随机干扰项方差估计中,我们用 σ ^ 2 \hat\sigma^2 σ^2对 σ 2 \sigma^2 σ2进行估计,即
σ ^ 2 = ∑ e i 2 n − k \hat{\sigma}^2= \frac{\sum{e_i^2}}{n-k} σ^2=n−k∑ei2​​
有些解释变量对观测值 Y i Y_i Yi​影响很小,增加这些变量对减少残差平方和没有多大作用,但是引入解释变量的数目越多, k k k越大,如果残差平方和减小不明显,那么 σ 2 \sigma^2 σ2估计值 σ ^ 2 \hat\sigma^2 σ^2就会增大,而 σ ^ 2 \hat\sigma^2 σ^2的增大对于推断参数 β \pmb{\beta} β​β​​β的置信区间以及对于预测区间的估计,都意味着精度的降低。

为了解决这个问题,引入修正可决系数 R ‾ 2 \overline{R}^2 R2
R ‾ 2 = 1 − R S S / ( n − k ) T S S / ( n − 1 ) \overline{R}^2=1-\frac{RSS/(n-k)}{TSS/(n-1)} R2=1−TSS/(n−1)RSS/(n−k)​
如果增加一个对观测值 Y i Y_i Yi​影响较大的变量,那么残差平方和减小比 ( n − k ) (n-k) (n−k)减小更显著,修正可决系数 R ‾ 2 \overline{R}^2 R2就会增大;如果增加一个对观测值 Y i Y_i Yi​影响较小的变量,那么残差平方和减小没有 ( n − k ) (n-k) (n−k)减小显著,修正可决系数 R ‾ 2 \overline{R}^2 R2就会减小,说明不应该引入这个解释变量

修正可决系数 R ‾ 2 \overline{R}^2 R2与可决系数 R 2 R^2 R2有何联系
R ‾ 2 = 1 − n − 1 n − k R S S T S S = 1 − n − 1 n − k ( 1 − R 2 ) = 1 − n − 1 n − k + n − 1 n − k R 2 = n − 1 n − k R 2 − k − 1 n − k = ( n − k ) + ( k − 1 ) n − k R 2 − k − 1 n − k = R 2 − k − 1 n − k ( 1 − R 2 ) \begin{aligned} \overline{R}^2 & = 1-\frac{n-1}{n-k}\frac{RSS}{TSS} \\ & = 1-\frac{n-1}{n-k}(1-R^2) \\ & = 1-\frac{n-1}{n-k}+\frac{n-1}{n-k}R^2 \\ & = \frac{n-1}{n-k}R^2-\frac{k-1}{n-k} \\ & = \frac{(n-k)+(k-1)}{n-k}R^2-\frac{k-1}{n-k} \\ & = R^2-\frac{k-1}{n-k}(1-R^2) \end{aligned} R2​=1−n−kn−1​TSSRSS​=1−n−kn−1​(1−R2)=1−n−kn−1​+n−kn−1​R2=n−kn−1​R2−n−kk−1​=n−k(n−k)+(k−1)​R2−n−kk−1​=R2−n−kk−1​(1−R2)​
由于 ( k − 1 ) (k-1) (k−1)、 ( n − k ) (n-k) (n−k)、 ( 1 − R 2 ) (1-R^2) (1−R2)均大于0,可知
R ‾ 2 ≤ R 2 \overline{R}^2\le R^2 R2≤R2

即修正可决系数 R ‾ 2 \overline{R}^2 R2不大于可决系数 R 2 R^2 R2

修正可决系数 R ‾ 2 \overline{R}^2 R2有可能是负值

修正可决系数 R ‾ 2 \overline{R}^2 R2有可能是一个负值,即 R ‾ 2 < 0 \overline{R}^2< 0 R2<0,这种情况下会有
R 2 < k − 1 n − k ( 1 − R 2 ) ( 1 + k − 1 n − k ) R 2 < k − 1 n − k n − 1 n − k R 2 < k − 1 n − k R 2 < k − 1 n − 1 R^2<\frac{k-1}{n-k}(1-R^2) \\ (1+\frac{k-1}{n-k})R^2<\frac{k-1}{n-k} \\ \frac{n-1}{n-k}R^2<\frac{k-1}{n-k} \\ R^2<\frac{k-1}{n-1} R2<n−kk−1​(1−R2)(1+n−kk−1​)R2<n−kk−1​n−kn−1​R2<n−kk−1​R2<n−1k−1​
所以,当 R 2 < k − 1 n − 1 R^2<\frac{k-1}{n-1} R2<n−1k−1​时, R ‾ 2 < 0 \overline{R}^2< 0 R2<0,这种情况下使用修正可决系数 R ‾ 2 \overline{R}^2 R2将失去意义,作 R ‾ 2 = 0 \overline{R}^2= 0 R2=0处理。所以修正可决系数 R ‾ 2 \overline{R}^2 R2只适用于因变量 Y Y Y与解释变量 X 2 , X 3 , ⋯   , X k X_2,X_3,\cdots,X_k X2​,X3​,⋯,Xk​的整体相关程度比较高的情况,因为只有在这种情况下 R 2 R^2 R2才不会小于 k − 1 n − 1 \frac{k-1}{n-1} n−1k−1​

欢迎关注微信公众号:乌龙PySta (ID: wylcfy2014)
不定期推送python和stata笔记,经管文本分析与机器学习

参考资料

[1] 朱建平等,高级计量经济学导论

[2] 孙敬水,中级计量经济学

[3] 陈强,计量经济学与stata应用

上一篇:Java自学如何找工作?


下一篇:机器学习笔记-k近邻算法