Chapter 7:假设检验与区间估计(1)
4.1 一般线性假设
在第三章中,我们给出了基于 Gauss-Markov 假设下的线性回归模型的模型设定:
\[Y=X\beta+e \ , \quad {\rm E}(e)=0 \ , \quad {\rm Cov}(e)=\sigma^2I_n \ . \]注意到,这里我们并没有对随机干扰项的分布加以限制。这一章开始,我们主要利用假设检验的方法,对所建立的回归方程是否刻画了因变量和自变量之间的真实依赖关系进行分析。
由于假设检验问题要求在原假设成立的条件下,所构造的检验统计量的分布是已知的,因此这里我们对随机干扰项施加正态性假设,即考虑正态线性回归模型:
\[Y=X\beta+e \ , \quad e\sim N\left(0,\sigma^2I_n\right) \ . \]首先关注一般线性假设问题 \(H_0:A\beta=b\) ,这里 \(A\) 为 \(m\times(p+1)\) 的矩阵,\(b\) 为 \(m\times1\) 的常数向量。
利用最小二乘法,得到最小二乘估计量 \(\hat\beta=\left(X'X\right)^{-1}X'Y\) ,以及残差平方和
\[{\rm RSS}=\left(Y-X\hat\beta\right)'\left(Y-X\hat\beta\right)=Y'\left(I_n-H\right)Y \ . \]对线性回归模型施加线性假设 \(H_0\) ,根据第三章所学结论,得到约束最小二乘估计
\[\hat\beta_H=\hat\beta-\left(X'X\right)^{-1}A'\left(A\left(X'X\right)^{-1}A'\right)^{-1}\left(A\hat\beta-b\right) \ , \]以及相应的残差平方和
\[{\rm RSS}_H=\left(Y-X\hat\beta_H\right)'\left(Y-X\hat\beta_H\right) \ . \]残差平方和反映了实际数据与模型的拟合程度,施加约束条件后,回归系数 \(\beta\) 的搜索范围变小了,因而残差平方和就变大了,于是总有 \({\rm RSS}_H\geq{\rm RSS}\) 。
若回归系数 \(\beta\) 满足约束条件,则是否施加约束条件本质上是一样的,此时 \({\rm RSS}_H-{\rm RSS}\) 应该较小。同理可知,若回归系数 \(\beta\) 不满足约束条件,此时 \({\rm RSS}_H-{\rm RSS}\) 应该较大。所以,当 \({\rm RSS}_H-{\rm RSS}\) 偏大到一定程度时,我们就有充分的理由拒绝原假设。
定理 4.1.1 (最小二乘法基本定理) :对于正态线性回归模型
\[Y=X\beta+e \ , \quad e\sim N\left(0,\sigma^2I_n\right) \ , \](1) \({\rm RSS}/\sigma^2\sim\chi^2(n-p-1)\) ;
(2) 若假设 \(H_0:A\beta=b\) 成立,则 \(\left({\rm RSS}_H-{\rm RSS}\right)/\sigma^2\sim\chi^2(m)\) ,其中 \(m\) 为约束个数;
(3) \({\rm RSS}\) 与 \({\rm RSS}_H-{\rm RSS}\) 相互独立;
(4) 若假设 \(H_0:A\beta=b\) 成立,则
\[F_H=\frac{\left({\rm RSS}_H-{\rm RSS}\right)/m}{{\rm RSS}/(n-p-1)}\sim F(m,n-p-1) \ . \]这里我们给出一种 \(F_H\) 统计量的解释:
- 分子 \(\left({\rm RSS}_H-{\rm RSS}\right)/m\) 表示每增加一个约束,残差平方和的平均变化量;
- 分母 \({\rm RSS}/(n-p-1)\) 起正则化作用,用来消除分子 \(\left({\rm RSS}_H-{\rm RSS}\right)/m\) 的量纲。
这里 \(F_H\) 即可作为线性假设 \(H_0:A\beta=b\) 的检验统计量,对于给定的显著性水平 \(\alpha\) ,检验的拒绝域为
\[W=\left\{F_H>F_{\alpha}(m,n-p-1)\right\} \ . \](1) 定理 3.2.4 已证。
(2) 根据定理 3.3.1 证明过程可知,
\[\|Y-X\hat\beta_H\|^2= \left\|Y-X\hat\beta\right\|^2+\left\|X\left(\hat\beta-\hat\beta_H\right)\right\|^2 \ , \]即有
\[{\rm RSS}_H={\rm RSS}+\left(\hat\beta-\hat\beta_H\right)'X'X\left(\hat\beta-\hat\beta_H\right) \ . \tag{1} \]利用 \(\hat\beta_H\) 的表达式可得
\[{\rm RSS}_H-{\rm RSS}=\left(A\hat\beta-b\right)'\left(A\left(X'X\right)^{-1}A'\right)^{-1}\left(A\hat\beta-b\right) \ . \tag{2} \]因为 \(\hat\beta\sim N\left(\beta,\sigma^2\left(X'X\right)^{-1}\right)\) ,根据定理 2.3.2 可知
\[A\hat\beta-b\sim N\left(A\beta-b,\sigma^2A\left(X'X\right)^{-1}A'\right) \ . \]若原假设 \(H_0:A\beta=b\) 成立,则有
\[A\hat\beta-b\sim N\left(0,\sigma^2A\left(X'X\right)^{-1}A'\right) \ . \]又因为约数个数 \(m\) 满足 \({\rm rank}(A)=m\) ,根据定理 2.4.1 可知
\[\frac{{\rm RSS}_H-{\rm RSS}}{\sigma^2}\sim \chi^2(m) \ . \](3) 注意到
\[\begin{aligned} A\hat\beta-b&=A\left(X'X\right)^{-1}X'\left(X\beta+e\right)-b \\ \\ &=A\left(X'X\right)^{-1}X'e+(A\beta-b) \ , \end{aligned} \]代入 \((2)\) 式可得
\[{\rm RSS}_H-RSS\xlongequal{def}e'Me+2c'e+\Theta \ , \]其中
\[\begin{aligned} &M=X\left(X'X\right)^{-1}A'\left(A\left(X'X\right)^{-1}A'\right)^{-1}A\left(X'X\right)^{-1}X' \ , \\ \\ &c'=\left(A\beta-b\right)'\left(A\left(X'X\right)^{-1}A'\right)^{-1}A\left(X'X\right)^{-1}X' \ , \\ \\ &\Theta=\left(A\beta-b\right)'\left(A\left(X'X\right)^{-1}A'\right)^{-1}(A\beta-b) \ . \end{aligned} \]注意到 \(\Theta\) 为非随机项,记 \(N=I-X\left(X'X\right)^{-1}X'\) ,且有 \(X'N=O\) ,于是
\[{\rm RSS}=e'\left(I-X\left(X'X\right)^{-1}X'\right)=e'Ne \ . \]要证 \({\rm RSS}_H-{\rm RSS}\) 与 \({\rm RSS}\) 相互独立,只需证 \(e'Me\) 与 \(c'e\) 都与 \(e'Ne\) 相互独立。
因为 \(e\sim N\left(0,\sigma^2I\right)\) ,根据推论 2.4.10 和推论 2.4.11 可知,只需证
\[M\cdot\sigma^2I\cdot N=O \ , \quad c'\cdot\sigma^2I\cdot N=0 \ . \]由 \(X'N=O\) 显然得证。
(4) 由以上三个结论可直接推出 \(F_H\) 的分布。
在实际计算过程中,\({\rm RSS}\) 可通过下列公式计算:
\[{\rm RSS}=\left(Y-X\hat\beta\right)'\left(Y-X\hat\beta\right)=Y'Y-\hat\beta'X'Y \ . \]而计算 \({\rm RSS}_H\) 时可通过把约束条件 \(A\beta=b\) 代入原来的模型,从而转化为一个无约束的模型,称之为约简模型,参考 \({\rm RSS}\) 的计算公式进行计算。
同一模型检验问题:假设我们对因变量 \(y\) 和自变量 \(x_1,x_2,\cdots,x_p\) 有两批观测数据,对第一批和第二批数据,分别有线性回归模型
\[\begin{aligned} &y_i=\beta_0^{(1)}+\beta_1^{(1)}x_{i1}+\cdots+\beta_p^{(1)}x_{ip}+e_i \ , \quad i=1,2,\cdots,n_1 \ ; \\ \\ &y_i=\beta_0^{(2)}+\beta_1^{(2)}x_{i1}+\cdots+\beta_p^{(2)}x_{ip}+e_i \ , \quad i=n_1+1,n_1+2,\cdots,n_1+n_2 \ , \end{aligned} \]其中,\(e_{1},e_{2},\cdots,e_{n_1+n_2}\) 独立同分布服从 \(N\left(0,\sigma^2\right)\) 。试检验这两批数据所反映的因变量与自变量之间的依赖关系是否一样,即检验
\[H_0:\beta_i^{(1)}=\beta_{i}^{(2)} \ , \quad i=0,1,2,\cdots,p \ . \]推导检验统计量,将两个模型写成矩阵形式:
\[Y_1=X_1\beta_1+e_1 \ , \quad e_1\sim N\left(0,\sigma^2I_{n_1}\right) \ , \\ \\ Y_2=X_2\beta_2+e_2 \ , \quad e_2\sim N\left(0,\sigma^2I_{n_2}\right) \ . \]将它们合并得到
\[\begin{pmatrix} Y_1\\ Y_2 \end{pmatrix}=\begin{pmatrix} X_1 & O\\ O & X_2 \end{pmatrix}\begin{pmatrix} \beta_1\\ \beta_2 \end{pmatrix}+\begin{pmatrix} e_1\\ e_2 \end{pmatrix} \ , \quad \begin{pmatrix} e_1\\ e_2 \end{pmatrix}\sim N\left(0,\sigma^2I_{n_1+n_2}\right) \ . \]检验问题可以写为
\[H_0:\left(\begin{array}{c:c}I_{p+1}&-I_{p+1}\end{array}\right)\begin{pmatrix} \beta_1\\ \beta_2 \end{pmatrix}=0 \ . \]容易计算原模型的最小二乘估计和残差平方和为:
\[\begin{align} \begin{pmatrix} \hat\beta_1\\ \hat\beta_2 \end{pmatrix}&=\begin{pmatrix} \left(X_1'X_1\right)^{-1}X_1'Y_1\\ \left(X_2'X_2\right)^{-1}X_2'Y_2 \end{pmatrix} \ . \\ \\ {\rm RSS}&=Y_1'Y_1+Y_2'Y_2-\hat\beta_1'X_1'Y_1-\hat\beta_2'X_2'Y_2 \ . \end{align} \]将约束条件 \(\beta_1=\beta_2\xlongequal{def}\beta\) 代入原模型,得到约简模型
\[\begin{pmatrix} Y_1\\ Y_2 \end{pmatrix}=\begin{pmatrix} X_1\\ X_2 \end{pmatrix}\beta+e \ , \quad e\sim N\left(0,\sigma^2I_{n_1+n_2}\right) \ . \]计算得到约简模型的最小二乘估计和残差平方和为:
\[\begin{align} &\hat\beta_H=\left(X_1'X_1+X_2'X_2\right)^{-1}\left(X_1'Y_1+X_2'Y_2\right) \ . \\ \\ &{\rm RSS}_H=Y_1'Y_1+Y_2'Y_2-\hat\beta_H\left(X_1'Y_1+X_2'Y_2\right) \ . \end{align} \]从而有
\[\begin{aligned} {\rm RSS}_H-{\rm RSS}&=\hat\beta_1'X_1'Y_1+\hat\beta_2'X_2'Y_2-\hat\beta_H\left(X_1'Y_1+X_2'Y_2\right) \\ \\ &=\left(\hat\beta_1-\hat\beta_H\right)'X_1'Y_1+\left(\hat\beta_2-\hat\beta_H\right)'X_2'Y_2 \ . \end{aligned} \]因此检验统计量为
\[F_H=\frac{\left[\left(\hat\beta_1-\hat\beta_H\right)'X_1'Y_1+\left(\hat\beta_2-\hat\beta_H\right)'X_2'Y_2\right]\big/(p+1)}{\left[Y_1'Y_1+Y_2'Y_2-\hat\beta_1'X_1'Y_1-\hat\beta_2'X_2'Y_2\right]\big/(n_1+n_2-2p-2)} \ . \]在 \(H_0\) 成立的条件下,\(F_H\sim F(p+1,n_1+n_2-2p-2)\) ,对于给定的显著性水平 \(\alpha\) ,检验的拒绝域为
\[W=\left\{F_H>F_\alpha(p+1,n_1+n_2-2p-2)\right\} \ . \]若拒绝原假设,即认为两批数据不是来自同一线性回归模型。否则,我们没有充分的理由拒绝原假设,即认为它们来自同一线性回归模型。
4.2 回归方程的显著性检验
所谓回归方程的显著性检验,指的是检验所有自变量的整体是否对因变量具有显著的预测作用,如果将正态线性回归模型写成样本回归模型的形式,即
\[y_i=\beta_0+\beta_1x_{i1}+\cdots+\beta_px_{ip}+e_i \ , \quad e_i\sim N\left(0,\sigma^2\right) \ , \quad i=1,2,\cdots,n \ , \]则检验问题可以写为
\[H_0:\beta_1=\beta_2=\cdots=\beta_p=0 \ . \]若拒绝原假设,则认为至少存在一个自变量 \(x_j\) 对因变量 \(y\) 具有显著的预测作用。
容易发现,该假设问题是线性假设 \(A\beta=b\) 的特例,即取
\[A=\begin{bmatrix} 0 & 1 & 0 & \cdots & 0 \\ 0 & 0 & 1 & \cdots & 0 \\ \vdots & \vdots &\vdots & & \vdots \\ 0 & 0 & 0 & \cdots & 1 \end{bmatrix}=\begin{pmatrix} 0 &I_p \end{pmatrix} \ , \quad b=\begin{pmatrix} 0 & 0 & \cdots & 0 \end{pmatrix}' \ , \]代入原模型得到约简模型
\[y_i=\beta_0+e_i \ , \quad e_i\sim N\left(0,\sigma^2\right) \ , \quad i=1,2,\cdots,n \ , \]容易得到约简模型的最小二乘估计为 \(\tilde\beta_0=\bar{y}\) ,以及相应的残差平方和为
\[{\rm RSS}_H=Y'Y-\bar{y}\boldsymbol 1_n'Y=\sum_{i=1}^ny_i^2-n\bar{y}^2=\sum_{i=1}^n\left(y_i-\bar{y}\right)^2={\rm TSS} \ . \]可以发现,约简模型的残差平方和 \({\rm RSS}_H\) 正是原模型的总平方和 \({\rm TSS}\) ,这是因为约简模型中不包含任何自变量,残差平方和 \({\rm RSS}_H\) 完全是由 \(y_1,y_2,\cdots,y_n\) 的波动构成。
根据最小二乘法基本定理给出的检验统计量,则有
\[\begin{aligned} &{\rm RSS}=Y'Y-\hat\beta'X'Y \ , \\ \\ &{\rm RSS}_H-{\rm RSS}={\rm TSS}-{\rm RSS}={\rm ESS}=\hat\beta'X'Y-\bar{y}\boldsymbol 1_n'Y \ . \end{aligned} \]注意到 \({\rm rank}(A)=p\) ,所以有
\[F_H=\frac{{\rm ESS}/p}{{\rm RSS}/(n-p-1)} \ . \]在 \(H_0\) 成立的条件下,\(F_H\sim F(p,n-p-1)\) ,对于给定的显著性水平 \(\alpha\) ,检验的拒绝域为
\[W=\left\{F_H>F_\alpha(p,n-p-1)\right\} \ . \]关于回归方程的显著性检验,我们可以给出检验统计量 \(F_H\) 的一种统计解释:
- 注意到约简模型的 \({\rm RSS}_H\) 就是原模型中的总平方和 \({\rm TSS}\) ,可以分解为 \({\rm TSS}={\rm ESS}+{\rm RSS}\) 。
- 由于回归平方和 \({\rm ESS}\) 反映了自变量对因变量总平方和的贡献,残差平方和 \({\rm RSS}\) 反映了模型误差对因变量总平方和的贡献,因此检验统计量 \(F_H\) 是把自变量的平均贡献和模型误差的平均贡献进行比较。
- 当自变量的平均贡献显著大于模型误差的平均贡献时,我们有充分的理由相信回归模型的自变量对因变量是由显著的作用的,从而拒绝原假设。
我们也可以用方差分析表来表示这样的关系:
\[\begin{array}{|c|c|c|c|c|c|} \hline \text{Source} & \text{Sum of Squares} & {\rm df} & \text{Mean Square} & F\text{-statistic} & p\text{-value} \\ \hline \text{Explained} & {\rm ESS} & p & {\rm ESS}/p & F_H & P(F>f_H) \\ \hline \text{Residual} & {\rm RSS} & n-p-1 & {\rm RSS}/(n-p-1) & & \\ \hline \text{Total} & {\rm TSS} & n-1 \\ \hline \end{array} \]注意,以上的假设检验过程依赖于模型的正态性假设。若无正态性假设,我们需要在 \(F\) 统计量的大样本理论框架下完成假设检验,即需要求出 \(F\) 统计量的极限分布,然后利用极限分布来构造拒绝域。但有时这个要求无法被满足,另一种解决方案即为置换检验。
置换检验的思路如下:若因变量与自变量整体无显著的相依关系,则可以认为因变量观测值是随机散布的。由于 \(F\) 统计量可以用来度量因变量与自变量整体的相依关系,\(F\) 值越大,相依关系越显著。我们考虑以下问题:比目前观测到的 \(F\) 统计量的样本观测值还要大的可能性有多大?若这个可能性很小,我们就有理由拒绝因变量与自变量整体无显著相依关系的原假设。
置换检验的操作如下:对于原样本计算出原始的 \(F\) 值,然后对因变量的 \(n\) 个观测值的 \(n!\) 种全排列分别计算出 \(n!\) 个 \(F\) 值。计算这 \(n!\) 个 \(F\) 值中大于原始的 \(F\) 值的比例,并基于这一比例大小进行统计决策, 这就是置换检验。
4.3 回归系数的显著性检验
所谓回归系数的显著性检验,指的是对每个自变量逐一做显著性检验。由于回归方程的显著性检验是对回归模型的自变量进行的整体性检验,拒绝原假设仅意味着因变量 \(y\) 对自变量 \(x_1,x_2,\cdots,x_p\) 整体有依赖关系,但并不能排除 \(y\) 不依赖于其中的某些自变量。因此我们需要对回归系数 \(\beta_j,\,1\leq j\leq p\) 进行显著性检验。考虑检验问题:
\[H_j:\beta_j=0 \ , \quad j=1,2,\cdots,p \ , \]可以等价地写成线性假设 \(H_j:A\beta=b\) ,其中
\[b=0 \ , \quad \beta=\left(\beta_0,\cdots,\beta_{j-1},\beta_{j},\beta_{j+1},\cdots,\beta_p\right)' \ , \quad A=\left(0,\cdots,1,\cdots,0\right)' \ , \]这里 \(A\) 的第 \(j+1\) 个元素为 \(1\) ,其余均为 \(0\) ,注意到 \(m={\rm rank}(A)=1\) 。
根据最小二乘法基本定理给出的检验统计量,则有
\[{\rm RSS}_H-{\rm RSS}=\left(A\hat\beta-b\right)'\left(A\left(X'X\right)^{-1}A'\right)^{-1}\left(A\hat\beta-b\right)=\frac{\hat\beta_j^2}{c_{j+1,j+1}} \ , \]其中 \(c_{j+1,j+1}\) 为 \(\left(X'X\right)^{-1}\) 的第 \(j+1\) 个对角线元素,记
\[{\rm RSS}/(n-p-1)=\hat\sigma^2 \ , \]所以检验统计量 \(F_H\) 在假设 \(H_j\) 成立的条件下满足
\[F_H=\frac{({\rm RSS}_H-{\rm RSS})/m}{{\rm RSS}/(n-p-1)}=\frac{\hat\beta_j^2}{\hat\sigma^2c_{j+1,j+1}} \sim F(1,n-p-1) \ . \]给定显著性水平 \(\alpha\) ,当 \(F_H>F_\alpha(1,n-p-1)\) 时拒绝原假设 \(H_j\) ,否则接受 \(H_j\) 。
根据 \(F\) 分布与 \(t\) 分布的关系,检验统计量也可以取为
\[t_j=\frac{\hat\beta_j}{\sqrt{\hat\sigma^2c_{j+1,j+1}}} \ . \]根据定理 3.2.4 可知 \(\hat\beta\sim N\left(\beta,\sigma^2\left(X'X\right)^{-1}\right)\) ,从而 \(\hat\beta_i\sim N\left(\beta_i,\sigma^2c_{j+1,j+1}\right)\) ,在 \(H_j\) 成立的条件下有
\[\frac{\hat\beta_j}{\sigma\sqrt{c_{j+1,j+1}}}\sim N(0,1) \ . \]又因为 \({\rm RSS}/\sigma^2\sim\chi^2(n-p-1)\) 且与 \(\hat\beta_j\) 相互独立,所以有
\[t_j=\frac{\hat\beta_j}{\hat\sigma\sqrt{c_{j+1,j+1}}}\sim t\left(n-p-1\right) \ . \]给定显著性水平 \(\alpha\) ,当 \(|t_j|>t_{\alpha/2}(n-p-1)\) 时拒绝原假设 \(H_j\) ,否则接受 \(H_j\) 。
和回归方程的显著性检验一样,在没有模型的正态性假设的情况下,我们可以用大样本性质推导 \(t\) 分布的极限分布,从而计算检验的拒绝域。同理,我们也可以做回归系数的置换检验,检验因变量 \(y\) 和某个自变量 \(x_j\) 是否有显著的相依关系。
4.4 其它线性假设的检验
这里我们主要介绍几种最小二乘法基本定理的应用,也就是在 \(A\) 和 \(b\) 取不同值时的检验问题。为了方便说明这几种情况,我们以一个三元的回归模型为例,模型设定为
\[y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\beta_3x_{i3}+e_i \ , \quad i=1,2,\cdots,n \ , \]情况一:检验成对自变量。考虑假设检验问题为 \(x_2\) 和 \(x_3\) 是否至少有一个对因变量 \(y\) 有显著的相依关系,等价于检验 \(H_0:\beta_2=\beta_3=0\) 。于是,约简模型为
\[y_i=\beta_0+\beta_1x_{i1}+e_i \ , \quad i=1,2,\cdots,n \ , \]由最小二乘法基本定理,给定显著性水平 \(\alpha\) ,检验的拒绝域为
\[W=\left\{F_H=\frac{\left({\rm RSS}_H-{\rm RSS}\right)/2}{{\rm RSS}/(n-4)}>F_\alpha(2,n-4)\right\} \ . \]情况二:检验回归参数的子空间。考虑假设检验问题为 \(x_2\) 和 \(x_3\) 是否对因变量 \(y\) 具有相同程度的相依关系,等价于检验 \(H_0:\beta_2=\beta_3\) 。于是,约简模型为
\[y_i=\beta_0+\beta_1x_{i1}+\beta_2\left(x_{i2}+x_{i3}\right)+e_i\ , \quad i=1,2,\cdots,n \ , \]由最小二乘法基本定理,给定显著性水平 \(\alpha\) ,检验的拒绝域为
\[W=\left\{F_H=\frac{{\rm RSS}_H-{\rm RSS}}{{\rm RSS}/(n-4)}>F_\alpha(1,n-4)\right\} \ . \]情况三:检验回归参数取特殊值。考虑假设检验问题为 \(x_3\) 的系数是否为 \(1\) ,等价于检验 \(H_0:\beta_3=1\) 于是,约简模型为
\[y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+1\times x_{i3}+e_i \ , \quad i=1,2,\cdots,n \ , \]由最小二乘法基本定理,给定显著性水平 \(\alpha\) ,检验的拒绝域为
\[W=\left\{F_H=\frac{{\rm RSS}_H-{\rm RSS}}{{\rm RSS}/(n-4)}>F_\alpha(1,n-4)\right\} \ . \]类似的线性检验问题还有很多种不同的变形,在这里就不一列举了。