多元线性回归方程

多元线性回归方程

文章目录

简单线性回归模型仅包含一个解释变量,考虑实际经济问题的复杂性,影响研究对象的因素往往不止一个,因此有必要构建多元线性回归模型。


1.多元线性回归模型

定义:包含被解释变量 Y Y Y与 k − 1 k-1 k−1个解释变量 X 2 , X 3 … X k X_2,X_3 \dots X_k X2​,X3​…Xk​的多元线性回归函数形式
Y i = β 1 + β 2 X 2 i + β 3 X 3 i + ⋯ + β k X k i + u i Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}+u_{i} Yi​=β1​+β2​X2i​+β3​X3i​+⋯+βk​Xki​+ui​
其中 β j \beta_j βj​为模型参数。 μ \mu μ为随机扰动项。若被解释变量与解释变量都作了 n n n次观测,则 ∀ i ∈ ( 1 , n ) \forall i \in (1,n) ∀i∈(1,n)都满足
Y i = β 1 + β 2 X 2 i + β 3 X 3 i + ⋯ + β k X k i + u i ( i = 1 , 2 , ⋯   , n ) Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}+u_{i} \quad(i=1,2, \cdots, n) Yi​=β1​+β2​X2i​+β3​X3i​+⋯+βk​Xki​+ui​(i=1,2,⋯,n)
在解释变量 X = ( X 2 , … X k ) ′ \boldsymbol X = (X_{2},\dots X_{k})' X=(X2​,…Xk​)′条件下, Y i Y_i Yi​的条件期望为
E ( Y ∣ X 2 i , X 3 i , ⋯   , X k i ) = β 1 + β 2 X 2 i + β 3 X 3 i + ⋯ + β k X k i E\left(Y \mid X_{2 i}, X_{3 i}, \cdots, X_{k i}\right)=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i} E(Y∣X2i​,X3i​,⋯,Xki​)=β1​+β2​X2i​+β3​X3i​+⋯+βk​Xki​
其中 β j \beta_j βj​表示偏回归系数(偏斜率),表示在其他解释变量不变条件下, X j X_j Xj​每增加一个单位, Y Y Y的条件期望增加 β j \beta_j βj​个单位,即
∂ E ( Y ∣ X ) ∂ X j = β j \frac{\partial E(Y|\boldsymbol X)}{\partial X_j} = \beta_j ∂Xj​∂E(Y∣X)​=βj​
与简单的线性回归模型一样,多元线性回归模型也有总体回归模型PRF与样本回归模型SRF,多元线性回归模型的SRF为
Y ^ i = β ^ 1 + β ^ 2 X 2 i + β ^ 3 X 3 i + ⋯ + β ^ k X k i \hat{Y}_{i}=\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 i}+\hat{\beta}_{3} X_{3 i}+\cdots+\hat{\beta}_{k} X_{k i} Y^i​=β^​1​+β^​2​X2i​+β^​3​X3i​+⋯+β^​k​Xki​
它表示在总体中进行重复抽样获得的某一系列具体的观测数据条件下,通过某种估计方法计算得到的SRF.其中 β ^ j \hat \beta_j β^​j​表示对总体参数 β j \beta_j βj​的估计。当然被解释变量 Y ^ i \hat{Y}_i Y^i​也是对观测值 Y i Y_i Yi​的估计,它们之间存在误差 e i e_i ei​满足
Y i = Y ^ i + e i Y_{i}=\hat{Y}_{i}+e_{i} Yi​=Y^i​+ei​
对于 n n n次样本观测,则
Y i = β ^ 1 + β 2 X ^ 2 i + β ^ 3 X 3 i + ⋯ + β k X k i + e i Y_{i}=\hat{\beta}_{1}+\beta_{2} \hat{X}_{2 i}+\hat{\beta}_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}+e_{i} Yi​=β^​1​+β2​X^2i​+β^​3​X3i​+⋯+βk​Xki​+ei​
其中 i = 1 , 2 , … n i = 1,2,\dots n i=1,2,…n


1.1多元线性回归模型的矩阵式

对于 n n n次观测,我们将每一次的观测 i i i代入PRF中
Y 1 = β 1 + β 2 X 21 + β 3 X 31 + ⋯ + β k X k 1 + u 1 Y 2 = β 1 + β 2 X 22 + β 3 X 32 + ⋯ + β k X k 2 + u 2 … Y 2 = β 1 + β 2 X 2 n + β 3 X 3 n + ⋯ + β k X k n + u n \begin{array}{l} Y_{1}=\beta_{1}+\beta_{2} X_{21}+\beta_{3} X_{31}+\cdots+\beta_{k} X_{k 1}+u_{1} \\ Y_{2}=\beta_{1}+\beta_{2} X_{22}+\beta_{3} X_{32}+\cdots+\beta_{k} X_{k 2}+u_{2}\\ \dots \\ Y_{2}=\beta_{1}+\beta_{2} X_{2n}+\beta_{3} X_{3n}+\cdots+\beta_{k} X_{k n}+u_{n} \end{array} Y1​=β1​+β2​X21​+β3​X31​+⋯+βk​Xk1​+u1​Y2​=β1​+β2​X22​+β3​X32​+⋯+βk​Xk2​+u2​…Y2​=β1​+β2​X2n​+β3​X3n​+⋯+βk​Xkn​+un​​
改写为矩阵形式
Y = [ Y 1 Y 2 ⋮ Y n ] β = [ β 1 β 2 ⋮ β k ] U = [ u 1 u 2 ⋮ u n ] X = [ 1 X 21 X 31 ⋯ X k 1 1 X 22 X 32 ⋯ X k 2 ⋯ ⋯ ⋯ ⋯ ⋯ 1 X 2 n X 3 n ⋯ X k n ] \mathbf{Y}=\left[\begin{array}{c} Y_{1} \\ Y_{2} \\ \vdots \\ Y_{n} \end{array}\right] \quad \beta=\left[\begin{array}{c} \beta_{1} \\ \beta_{2} \\ \vdots \\ \beta_{k} \end{array}\right] \quad U=\left[\begin{array}{c} u_{1} \\ u_{2} \\ \vdots \\ u_{n} \end{array}\right] \mathbf{X}=\left[\begin{array}{ccccc} 1 & X_{21} & X_{31} & \cdots & X_{k 1} \\ 1 & X_{22} & X_{32} & \cdots & X_{k 2} \\ \cdots & \cdots & \cdots & \cdots & \cdots \\ 1 & X_{2 n} & X_{3 n} & \cdots & X_{k n} \end{array}\right] Y=⎣⎢⎢⎢⎡​Y1​Y2​⋮Yn​​⎦⎥⎥⎥⎤​β=⎣⎢⎢⎢⎡​β1​β2​⋮βk​​⎦⎥⎥⎥⎤​U=⎣⎢⎢⎢⎡​u1​u2​⋮un​​⎦⎥⎥⎥⎤​X=⎣⎢⎢⎡​11⋯1​X21​X22​⋯X2n​​X31​X32​⋯X3n​​⋯⋯⋯⋯​Xk1​Xk2​⋯Xkn​​⎦⎥⎥⎤​
其中 X 、 Y X、Y X、Y称为解释变量、被解释变量的数据矩阵, β \beta β称为参数向量, U U U为扰动项向量。于是
Y = X β + U \mathbf{Y}=\mathbf{X} \beta+\mathbf{U} Y=Xβ+U
或取期望
E ( Y ∣ X ) = X β E(\mathbf{Y}|\boldsymbol X)=\mathbf{X} \boldsymbol{\beta} E(Y∣X)=Xβ
对于SRF,自然也有
Y = X β ^ + e \mathbf{Y}=\mathbf{X} \hat{\boldsymbol{\beta}}+\mathbf{e} Y=Xβ^​+e
或取期望
Y ^ = X β ^ \hat{\mathbf{Y}}=\mathbf{X} \hat{\boldsymbol{\beta}} Y^=Xβ^​
其中
β ^ = [ β ^ 1 β ^ 2 ⋮ β ^ k ] e = [ e 1 e 2 ⋮ e n ] Y ^ = [ Y ^ 1 Y ^ 2 ⋮ Y ^ n ] \hat{\boldsymbol{\beta}}=\left[\begin{array}{c} \hat{\beta}_{1} \\ \hat{\beta}_{2} \\ \vdots \\ \hat{\beta}_{k} \end{array}\right] \quad \mathbf{e}=\left[\begin{array}{c} e_{1} \\ e_{2} \\ \vdots \\ e_{n} \end{array}\right] \quad \hat{\mathbf{Y}}=\left[\begin{array}{c} \hat{Y}_{1} \\ \hat{Y}_{2} \\ \vdots \\ \hat{Y}_{n} \end{array}\right] β^​=⎣⎢⎢⎢⎡​β^​1​β^​2​⋮β^​k​​⎦⎥⎥⎥⎤​e=⎣⎢⎢⎢⎡​e1​e2​⋮en​​⎦⎥⎥⎥⎤​Y^=⎣⎢⎢⎢⎡​Y^1​Y^2​⋮Y^n​​⎦⎥⎥⎥⎤​


1.2多元线性回归模型的古典假定

简单线性回归模型的假定共有三个,即严格外生假定、球形扰动项假定(同方差、无自相关)与正态分布假定;而多元线性回归模型除了以上三个假定外,还必须满足五多重共线性假定。

假定1:严格外生性假定,即
E ( μ ∣ X ) = 0 E(\mu|\boldsymbol X) = 0 E(μ∣X)=0
利用期望迭代定律推导出 E ( μ ) = 0 E(\mu) = 0 E(μ)=0,从而得到 C o v ( X i j , μ i ) = E ( X i j μ i ) = 0 Cov(X_{ij},\mu_i) = E(X_{ij}\mu_i) = 0 Cov(Xij​,μi​)=E(Xij​μi​)=0

假定2:球形扰动项假定(同方差假定与无自相关假定)
Cov ⁡ ( u i , u k ) = E [ ( u i − E u i ) ( u k − E u k ) ] = E ( u i u k ) = { σ 2 , i = k 0 , i ≠ k ( i , k = 1 , 2 , ⋯   , n ) \begin{array}{l} \operatorname{Cov}\left(u_{i}, u_{k}\right)=E\left[\left(u_{i}-E u_{i}\right)\left(u_{k}-E u_{k}\right)\right] \\ =E\left(u_{i} u_{k}\right)=\left\{\begin{array}{c} \sigma^{2}, i=k \\ 0, i \neq k \end{array} \quad(i, k=1,2, \cdots, n)\right. \end{array} Cov(ui​,uk​)=E[(ui​−Eui​)(uk​−Euk​)]=E(ui​uk​)={σ2,i=k0,i​=k​(i,k=1,2,⋯,n)​
随机扰动项的方差—协方差矩阵为
Var ⁡ ( U ) = E [ ( U − E U ) ( U − E U ) ′ ] = E ( U U ′ ) = [ E ( u 1 u 1 ) E ( u 1 u 2 ) ⋯ E ( u 1 u n ) E ( u 2 u 1 ) E ( u 2 u 2 ) ⋯ E ( u 2 u n ) ⋮ ⋮ ⋯ ⋮ E ( u n u 1 ) E ( u n u 2 ) ⋯ E ( u n u n ) ] = [ σ 2 0 ⋯ 0 0 σ 2 ⋯ 0 ⋯ ⋯ ⋯ ⋯ 0 0 ⋯ σ 2 ] \begin{aligned} \operatorname{Var}(\mathbf{U})=&E\left[(\mathbf{U}-E \mathbf{U})(\mathbf{U}-E \mathbf{U})^{\prime}\right]=E\left(\mathbf{U} \mathbf{U}^{\prime}\right) \\ =& \left[\begin{array}{cccc} E\left(u_{1} u_{1}\right) & E\left(u_{1} u_{2}\right) & \cdots & E\left(u_{1} u_{n}\right) \\ E\left(u_{2} u_{1}\right) & E\left(u_{2} u_{2}\right) & \cdots & E\left(u_{2} u_{n}\right) \\ \vdots & \vdots & \cdots & \vdots \\ E\left(u_{n} u_{1}\right) & E\left(u_{n} u_{2}\right) & \cdots & E\left(u_{n} u_{n}\right) \end{array}\right] \\ =& \left[\begin{array}{cccc} \sigma^{2} & 0 & \cdots & 0 \\ 0 & \sigma^{2} & \cdots & 0 \\ \cdots & \cdots & \cdots & \cdots \\ 0 & 0 & \cdots & \sigma^{2} \end{array}\right] \end{aligned} Var(U)===​E[(U−EU)(U−EU)′]=E(UU′)⎣⎢⎢⎢⎡​E(u1​u1​)E(u2​u1​)⋮E(un​u1​)​E(u1​u2​)E(u2​u2​)⋮E(un​u2​)​⋯⋯⋯⋯​E(u1​un​)E(u2​un​)⋮E(un​un​)​⎦⎥⎥⎥⎤​⎣⎢⎢⎡​σ20⋯0​0σ2⋯0​⋯⋯⋯⋯​00⋯σ2​⎦⎥⎥⎤​​

Var ⁡ ( U ) = σ 2 I n \operatorname{Var}(\mathbf{U})=\sigma^{2} \mathbf{I}_{n} Var(U)=σ2In​
其中 I n I_n In​为 n n n阶单位阵。

假定3:无多重共线性假定:各解释变量之间不存在线性关系
Rank ⁡ ( X ) = k      ( k + 1 < n ) \operatorname{Rank}(\mathbf{X})=k\;\;(k+1 < n) Rank(X)=k(k+1<n)
此时方阵 X ′ X \boldsymbol X' \boldsymbol X X′X满秩
Rank ⁡ ( X ′ X ) = k \operatorname{Rank}\left(\mathbf{X}^{\prime} \mathbf{X}\right)=\mathrm{k} Rank(X′X)=k
从而 X ′ X \boldsymbol X' \boldsymbol X X′X可逆, ( X ′ X ) − 1 (\boldsymbol X' \boldsymbol X)^{-1} (X′X)−1存在

假定4:正态性假定
u i ∼ N ( 0 , σ 2 ) u_{i} \sim N\left(0, \sigma^{2}\right) ui​∼N(0,σ2)


2.多元线性回归模型的估计

2.1最小二乘估计(矩估计)

根据简单的线性回归模型,多元线性回归模型也需要满足残差平方和最小,即
min ⁡ ∑ e i 2 = min ⁡ ∑ [ Y i − ( β 1 + β 2 X 2 i + β 3 X 3 i + ⋯ + β k X k i ) ] 2 \min \sum e_{i}^{2}=\min \sum\left[Y_{i}-\left(\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}\right)\right]^{2} min∑ei2​=min∑[Yi​−(β1​+β2​X2i​+β3​X3i​+⋯+βk​Xki​)]2
根据多元微积分知识,要使得剩余平方和最小,需要满足
∂ ( ∑ e i 2 ) ∂ β ^ j = 0 ( j = 1 , 2 , ⋯   , k ) \frac{\partial\left(\sum e_{i}^{2}\right)}{\partial \hat{\beta}_{j}}=0 \quad(j=1,2, \cdots, k) ∂β^​j​∂(∑ei2​)​=0(j=1,2,⋯,k)

− 2 ∑ [ Y i − ( β 1 + β 2 X 2 i + β 3 X 3 i + ⋯ + β k X k i ) ] = 0 − 2 ∑ X 2 i [ Y i − ( β 1 + β 2 X 2 i + β 3 X 3 i + ⋯ + β k X k i ) ] = 0 … − 2 ∑ X k i [ Y i − ( β 1 + β 2 X 2 i + β 3 X 3 i + ⋯ + β k X k i ) ] = 0 \begin{aligned} &-2 \sum\left[Y_{i}-\left(\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}\right)\right]=0\\ &-2 \sum X_{2 i}\left[Y_{i}-\left(\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}\right)\right]=0\\ &\dots \\ &-2 \sum X_{k i}\left[Y_{i}-\left(\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}\right)\right]=0 \end{aligned} ​−2∑[Yi​−(β1​+β2​X2i​+β3​X3i​+⋯+βk​Xki​)]=0−2∑X2i​[Yi​−(β1​+β2​X2i​+β3​X3i​+⋯+βk​Xki​)]=0…−2∑Xki​[Yi​−(β1​+β2​X2i​+β3​X3i​+⋯+βk​Xki​)]=0​
上述各式中方括号内的各项恰好为残差 e i e_i ei​,则
[ ∑ e i ∑ X 2 i e i ⋮ ∑ X k i e i ] = [ 1 1 ⋯ 1 X 21 X 22 ⋯ X 2 n ⋮ ⋮ ⋯ ⋮ X k 1 X k 2 ⋯ X k n ] [ e 1 e 2 ⋮ e n ] = X ′ e = [ 0 0 ⋮ 0 ] \left[\begin{array}{c} \sum e_{i} \\ \sum X_{2 i} e_{i} \\ \vdots \\ \sum X_{k i} e_{i} \end{array}\right]=\left[\begin{array}{cccc} 1 & 1 & \cdots & 1 \\ X_{21} & X_{22} & \cdots & X_{2 n} \\ \vdots & \vdots & \cdots & \vdots \\ X_{k 1} & X_{k 2} & \cdots & X_{k n} \end{array}\right]\left[\begin{array}{c} e_{1} \\ e_{2} \\ \vdots \\ e_{n} \end{array}\right]=X^{\prime} e=\left[\begin{array}{c} 0 \\ 0 \\ \vdots \\ 0 \end{array}\right] ⎣⎢⎢⎢⎡​∑ei​∑X2i​ei​⋮∑Xki​ei​​⎦⎥⎥⎥⎤​=⎣⎢⎢⎢⎡​1X21​⋮Xk1​​1X22​⋮Xk2​​⋯⋯⋯⋯​1X2n​⋮Xkn​​⎦⎥⎥⎥⎤​⎣⎢⎢⎢⎡​e1​e2​⋮en​​⎦⎥⎥⎥⎤​=X′e=⎣⎢⎢⎢⎡​00⋮0​⎦⎥⎥⎥⎤​
对样本回归函数SRF两边同乘以样本观测值矩阵的转置 X ′ \boldsymbol X' X′
X ′ Y = X ′ X β ^ + X ′ e \mathbf{X}^{\prime} \mathbf{Y}=\mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}+\mathbf{X}^{\prime} \mathbf{e} X′Y=X′Xβ^​+X′e

X ′ Y = X ′ X β ^ \mathbf{X}^{\prime} \mathbf{Y}=\mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}} X′Y=X′Xβ^​
根据假定4, ( X ′ X ) − 1 (\boldsymbol X' \boldsymbol X)^{-1} (X′X)−1存在,解得
β ^ = ( X ′ X ) − 1 X ′ Y \hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y} β^​=(X′X)−1X′Y
考虑只有两个解释变量情形,即 Y i = β 1 + β 2 X 2 i + β 3 X 3 i + u i Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i} Yi​=β1​+β2​X2i​+β3​X3i​+ui​,代入参数估计式展开得
β ^ 2 = ( ∑ y i x 2 i ) ( ∑ x 3 i 2 ) − ( ∑ y i x 3 i ) ( ∑ x 2 i x 3 i ) ( ∑ x 2 i 2 ) ( ∑ x 3 i 2 ) − ( ∑ x 2 i x 3 i ) 2 β ^ 3 = ( ∑ y i x 3 i ) ( ∑ x 2 i 2 ) − ( ∑ y i x 2 i ) ( ∑ x 2 i x 3 i ) ( ∑ x 2 i 2 ) ( ∑ x 3 i 2 ) − ( ∑ x 2 i x 3 i ) 2 β ^ 1 = Y ˉ − β ^ 2 X ˉ 2 − β ^ 3 X ˉ 3 \begin{array}{l} \hat{\beta}_{2}=\frac{\left(\sum y_{i} x_{2 i}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum y_{i} x_{3 i}\right)\left(\sum x_{2 i} x_{3 i}\right)}{\left(\sum x_{2 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum x_{2 i} x_{3 i}\right)^{2}} \\ \\ \hat{\beta}_{3}=\frac{\left(\sum y_{i} x_{3 i}\right)\left(\sum x_{2 i}^{2}\right)-\left(\sum y_{i} x_{2 i}\right)\left(\sum x_{2 i} x_{3 i}\right)}{\left(\sum x_{2 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum x_{2 i} x_{3 i}\right)^{2}} \\ \\ \hat{\beta}_{1}=\bar{Y}-\hat{\beta}_{2} \bar{X}_{2}-\hat{\beta}_{3} \bar{X}_{3} \end{array} β^​2​=(∑x2i2​)(∑x3i2​)−(∑x2i​x3i​)2(∑yi​x2i​)(∑x3i2​)−(∑yi​x3i​)(∑x2i​x3i​)​β^​3​=(∑x2i2​)(∑x3i2​)−(∑x2i​x3i​)2(∑yi​x3i​)(∑x2i2​)−(∑yi​x2i​)(∑x2i​x3i​)​β^​1​=Yˉ−β^​2​Xˉ2​−β^​3​Xˉ3​​
其中 x i = X i − X ˉ , y i = Y i − Y ˉ x_{i}=X_{i}-\bar{X}, y_{i}=Y_{i}-\bar{Y} xi​=Xi​−Xˉ,yi​=Yi​−Yˉ

2.2 最小二乘估计(向量导数)

min ⁡ β ⃗ SSR ⁡ ( β ~ ) = ∑ i = 1 n e i 2 = e ′ e = ( Y − X β ~ ) ′ ( Y − X β ~ ) = ( Y ′ − β ~ ′ X ′ ) ( Y − X β ~ ) = Y ′ Y − Y ′ X β ~ − β ~ ′ X ′ Y + β ~ ′ X ′ X β ~ = Y ′ Y − 2 Y ′ X β ~ + β ~ ′ X ′ X β ~ \begin{aligned} \min _{\vec{\beta}} \operatorname{SSR}(\tilde{\boldsymbol{\beta}}) &=\sum_{i=1}^{n} e_{i}^{2}=\boldsymbol{e}^{\prime} \boldsymbol{e} \\ &=(\boldsymbol{Y}-\boldsymbol{X} \tilde{\boldsymbol{\beta}})^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \tilde{\boldsymbol{\beta}}) \\ &=\left(\boldsymbol{Y}^{\prime}-\tilde{\boldsymbol{\beta}}^{\prime} \boldsymbol{X}^{\prime}\right)(\boldsymbol{Y}-\boldsymbol{X} \tilde{\boldsymbol{\beta}})\\ &=\boldsymbol Y^{\prime} \boldsymbol Y-\boldsymbol Y^{\prime} \boldsymbol X \tilde{\boldsymbol \beta}-\tilde{\boldsymbol \beta}^{\prime} \boldsymbol X^{\prime}\boldsymbol Y+\tilde{\boldsymbol \beta}^{\prime}\boldsymbol X^{\prime} \boldsymbol X \tilde{\boldsymbol \beta} \\ &=\boldsymbol Y^{\prime}\boldsymbol Y-2 \boldsymbol Y^{\prime}\boldsymbol X \tilde{\boldsymbol \beta}+\tilde{\boldsymbol \beta}^{\prime} \boldsymbol X^{\prime}\boldsymbol X \tilde{\boldsymbol \beta} \end{aligned} β ​min​SSR(β~​)​=i=1∑n​ei2​=e′e=(Y−Xβ~​)′(Y−Xβ~​)=(Y′−β~​′X′)(Y−Xβ~​)=Y′Y−Y′Xβ~​−β~​′X′Y+β~​′X′Xβ~​=Y′Y−2Y′Xβ~​+β~​′X′Xβ~​​

使用向量微分规则,可得最小化的一阶条件
∂ ( S S R ) ∂ β ~ = − 2 X ′ y + 2 X ′ X β ~ = 0 \frac{\partial(\mathrm{SSR})}{\partial \tilde{\boldsymbol \beta}}=-2 \boldsymbol X^{\prime} \boldsymbol y+2 \boldsymbol X^{\prime} \boldsymbol X \tilde{\boldsymbol \beta}=0 ∂β~​∂(SSR)​=−2X′y+2X′Xβ~​=0

β ^ = ( X ′ X ) − 1 X ′ Y \hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y} β^​=(X′X)−1X′Y


2.3 参数最小二乘的性质

1 线性性质

因为
β ^ = ( X ′ X ) − 1 X ′ Y = b Y \hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y} = \boldsymbol b\boldsymbol Y β^​=(X′X)−1X′Y=bY
其中 b = ( X ′ X ) − 1 X ′ \boldsymbol b = (\boldsymbol X' \boldsymbol X)^{-1} \boldsymbol X' b=(X′X)−1X′

2 无偏性
E ( β ^ ∣ X ) = β \mathrm{E}(\boldsymbol{\hat{ \beta}} \mid \boldsymbol{X})=\boldsymbol{\beta} E(β^​∣X)=β
证明:
E ( β ^ ∣ X ) = E ( ( X ′ X ) − 1 X ′ Y ∣ X ) = ( X ′ X ) − 1 X ′ E ( Y ∣ X ) = ( X ′ X ) − 1 X ′ ( X β ) = β \begin{aligned} E(\hat{\boldsymbol{\beta}}|\boldsymbol X)&=E(\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y} |\boldsymbol X) \\ &= \left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} E(\boldsymbol Y|\boldsymbol X)\\ &= \left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} (\boldsymbol X \boldsymbol \beta) = \boldsymbol \beta \end{aligned} E(β^​∣X)​=E((X′X)−1X′Y∣X)=(X′X)−1X′E(Y∣X)=(X′X)−1X′(Xβ)=β​
3 最小方差性

参数向量 β \boldsymbol \beta β的最小二乘估计 β ^ \hat{\boldsymbol {\beta}} β^​是 β \boldsymbol \beta β的所有线性无偏估计量中方差最小的估计量,证明繁琐略

在古典假定都满足的条件下,多元线性回归模型的最小二乘估计式也是最佳线性无偏估计式(BLUE)。

2.4 OLS 估计量的分布性质

根据正态分布假定与估计量的线性性,随机扰动项 u i ∼ N ( 0 , σ 2 ) u_{i} \sim N\left(0, \sigma^{2}\right) ui​∼N(0,σ2),则参数 β ^ \hat{\boldsymbol \beta} β^​服从正态分布。根据无偏性得到 β ^ \hat{\boldsymbol \beta} β^​的期望为
E ( β ^ ) = β \mathbf{E}(\hat{\boldsymbol{\beta}})=\boldsymbol{\beta} E(β^​)=β
根据方差协方差矩阵公式
V a r − Cov ⁡ ( β ) = σ 2 ( X X ) − 1 V a r-\operatorname{Cov}(\boldsymbol{\beta})=\sigma^{2}(\mathbf{X} \mathbf{X})^{-1} Var−Cov(β)=σ2(XX)−1
故 β ^ \hat{\boldsymbol \beta} β^​的方差为方差协方差矩阵对角线
Var ⁡ ( β j ) = σ 2 c j j \operatorname{Var}\left(\beta_{j}\right)=\sigma^{2} c_{j j} Var(βj​)=σ2cjj​
c j j c_{jj} cjj​表示矩阵 ( X X ) − 1 (\mathbf{X} \mathbf{X})^{-1} (XX)−1对角线的元素,对应的标准差为
S E ( β ^ j ) = σ c j j S E\left(\hat{\beta}_{j}\right)=\sigma \sqrt{c_{j j}} SE(β^​j​)=σcjj​
该式包含未知参数 σ \sigma σ,用无偏估计量 σ ^ 2 = ∑ e i 2 n − k \hat{\sigma}^{2}=\frac{\sum e_{i}^{2}}{n-k} σ^2=n−k∑ei2​​替代 σ 2 \sigma^2 σ2即可。在假定1-4条件下,参数 β ^ j \hat{\boldsymbol \beta}_j β^​j​服从正态分布
β ^ j ∼ N [ β j , Var ⁡ ( β ^ j ) ] \hat{\beta}_{j} \sim N\left[\beta_{j}, \operatorname{Var}\left(\hat{\beta}_{j}\right)\right] β^​j​∼N[βj​,Var(β^​j​)]

2.5 参数区间估计

一般情况下,我们研究对象的总体无法获取,一种方法是通过样本数据推断总体的参数特征。给定参数 β ^ j \hat{\beta}_j β^​j​,由于它的标准差包含未知参数 σ \sigma σ,可以利用由 e i e_i ei​构造的无偏估计量 σ ^ 2 = ∑ e i 2 / ( n − k ) \hat{\sigma}^{2}=\sum e_{i}^{2}/(n-k) σ^2=∑ei2​/(n−k)取替代总体随机扰动项的方差 σ 2 \sigma^2 σ2。经过证明
t ∗ = β ^ j − β j S E ^ ( β ^ j ) = β ^ j − β j σ ^ c j j ∼ t ( n − k ) t^{*}=\frac{\hat{\beta}_{j}-\beta_{j}}{\hat{S E}\left(\hat{\beta}_{j}\right)}=\frac{\hat{\beta}_{j}-\beta_{j}}{\hat{\sigma} \sqrt{c_{j j}}} \sim t(n-k) t∗=SE^(β^​j​)β^​j​−βj​​=σ^cjj​ ​β^​j​−βj​​∼t(n−k)
其中 k k k为参数个数。查 t t t分布表*度 n − k n-k n−k的临界值为 t α / 2 ( n − k ) t_{\alpha / 2}(n-k) tα/2​(n−k),则有
P [ − t α / 2 ( n − k ) ≤ t ∗ = β ^ j − β j S E ^ ( β ^ j ) ≤ t α / 2 ( n − k ) ] = 1 − α P\left[-t_{\alpha / 2}(n-k) \leq t^{*}=\frac{\hat{\beta}_{j}-\beta_{j}}{\hat{S E}\left(\hat{\beta}_{j}\right)} \leq t_{\alpha / 2}(n-k)\right]=1-\alpha P⎣⎡​−tα/2​(n−k)≤t∗=SE^(β^​j​)β^​j​−βj​​≤tα/2​(n−k)⎦⎤​=1−α
解得
P [ β ^ j − t α / 2 σ ^ c j j ≤ β j ≤ β ^ j + t α / 2 σ ^ c j j ] = 1 − α P\left[\hat{\beta}_{j}-t_{\alpha / 2} \hat{\sigma} \sqrt{c_{j j}} \leq \beta_{j} \leq \hat{\beta}_{j}+t_{\alpha / 2} \hat{\sigma} \sqrt{c_{j j}}\right]=1-\alpha P[β^​j​−tα/2​σ^cjj​ ​≤βj​≤β^​j​+tα/2​σ^cjj​ ​]=1−α


3. 多元线性回归模型的检验

3.1 拟合优度检验

多重可决系数:与简单线性回归类似,为了说明多元线性回归线对样本观测值的拟合情况,也可以考察在Y的总变差中由多个解释变量作出了解释的那部分变差的比重,即“回归平方和”与“总离差平方和”的比值。在多元回归中这一比值称为多重可决系数,用 R 2 R^2 R2表示
∑ ( Y i − Y ˉ ) 2 = ∑ ( Y i − Y ^ i ) 2 + ∑ ( Y ^ i − Y ˉ ) 2 \sum\left(Y_{i}-\bar{Y}\right)^{2}=\sum\left(Y_{i}-\hat{Y}_{i}\right)^{2}+\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2} ∑(Yi​−Yˉ)2=∑(Yi​−Y^i​)2+∑(Y^i​−Yˉ)2

  • ∑ ( Y i − Y ˉ ) 2 \sum\left(Y_{i}-\bar{Y}\right)^{2} ∑(Yi​−Yˉ)2称为总离差平方和(TSS),*度为 n − 1 n-1 n−1
  • ∑ ( Y i − Y ^ i ) 2 \sum\left(Y_{i}-\hat{Y}_{i}\right)^{2} ∑(Yi​−Y^i​)2称为残差平方和(RSS),*度为 n − k n-k n−k
  • ∑ ( Y ^ i − Y ˉ ) 2 \sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2} ∑(Y^i​−Yˉ)2称为回归平方和(ESS),*度为 k − 1 k-1 k−1

定义多重可决系数为
R 2 = E S S T S S R^{2}=\frac{E S S}{T S S} R2=TSSESS​

R 2 = T S S − R S S T S S = 1 − R S S T S S = 1 − ∑ e i 2 ∑ ( Y i − Y ˉ ) 2 R^{2}=\frac{T S S-R S S}{T S S}=1-\frac{R S S}{T S S}=1-\frac{\sum e_{i}^{2}}{\sum\left(Y_{i}-\bar{Y}\right)^{2}} R2=TSSTSS−RSS​=1−TSSRSS​=1−∑(Yi​−Yˉ)2∑ei2​​
多重可决系数是介于 0和 1 之间的一个数, R 2 R^2 R2越接近1,表明拟合效果越好。多重可决系数可以用矩阵表示
T S S = Y ′ Y − N Y ˉ 2 ; E S S = β ^ X ′ Y − N Y ˉ 2 T S S=\mathbf{Y}^{\prime} \mathbf{Y}-N \bar{Y}^{2};E S S=\hat{\beta} \mathbf{X}^{\prime} \mathbf{Y}-N \bar{Y}^{2} TSS=Y′Y−NYˉ2;ESS=β^​X′Y−NYˉ2

R 2 = E S S T S S = β X Y − N Y ˉ 2 Y ′ Y − N Y ˉ 2 R^{2}=\frac{E S S}{T S S}=\frac{\beta \mathbf{X} \mathbf{Y}-N \bar{Y}^{2}}{\mathbf{Y}^{\prime} \mathbf{Y}-N \bar{Y}^{2}} R2=TSSESS​=Y′Y−NYˉ2βXY−NYˉ2​
修正可决系数

将可决系数的矩阵式展开得到
R 2 = β ^ 2 ∑ x 2 i y i + β ^ 3 ∑ x 3 i y i + ⋯ + β ^ k ∑ x k i y i ∑ y i 2 R^{2}=\frac{\hat{\beta}_{2} \sum x_{2 i} y_{i}+\hat{\beta}_{3} \sum x_{3 i} y_{i}+\cdots+\hat{\beta}_{k} \sum x_{k i} y_{i}}{\sum y_{i}^{2}} R2=∑yi2​β^​2​∑x2i​yi​+β^​3​∑x3i​yi​+⋯+β^​k​∑xki​yi​​
多重可决系数是模型中解释变量个数的不减函数,也就是说,随着模型中解释变量的增加,多重可决系数 R 2 R^2 R2的值会变大。因此无法判断加入的解释变量对模型的解释性的好坏。可决系数只涉及到变差,没有考虑*度,因此引入*度,
R ˉ 2 = 1 − ∑ e i 2 / ( n − k ) ∑ ( Y i − Y ˉ ) 2 / ( n − 1 ) = 1 − n − 1 n − k ∑ e i 2 ∑ ( Y i − Y ˉ ) 2 \bar{R}^{2}=1-\frac{\sum e_{i}^{2} /(n-k)}{\sum\left(Y_{i}-\bar{Y}\right)^{2} /(n-1)}=1-\frac{n-1}{n-k} \frac{\sum e_{i}^{2}}{\sum\left(Y_{i}-\bar{Y}\right)^{2}} Rˉ2=1−∑(Yi​−Yˉ)2/(n−1)∑ei2​/(n−k)​=1−n−kn−1​∑(Yi​−Yˉ)2∑ei2​​
修正可决系数与未经修正的多重可决系数之间有如下关系:
R ˉ 2 = 1 − ( 1 − R 2 ) n − 1 n − k \bar{R}^{2}=1-\left(1-R^{2}\right) \frac{n-1}{n-k} Rˉ2=1−(1−R2)n−kn−1​
当 k > 1 k>1 k>1, R ˉ 2 < R 2 \bar{R}^{2}<R^{2} Rˉ2<R2. R ˉ 2 \bar{R}^{2} Rˉ2可正可负,当 R ˉ 2 < 0 \bar{R}^{2} <0 Rˉ2<0,一律记 R ˉ 2 = 0 \bar{R}^{2} = 0 Rˉ2=0

3.2 回归方程的显著性检验(F-检验)

多元线性回归模型包含多个解释变量,它们同被解释变量之间是否存在显著的线性关系需要通过方程的显著性来体现。对回归模型整体显著性的检验,所检验假设的形式为
H 0 : β 2 = β 3 = ⋯ = β k = 0 H 1 : Σ β j 2 ≠ 0 ( j = 2 , 3 , ⋯   , k ) \begin{aligned} &H_{0}: \beta_{2}=\beta_{3}=\cdots=\beta_{k}=0\\ &H_{1}: \Sigma\beta_{j}^2 \ne 0(j=2,3, \cdots, k) \end{aligned} ​H0​:β2​=β3​=⋯=βk​=0H1​:Σβj2​​=0(j=2,3,⋯,k)​
这种检验是在方差分析的基础上利用F检验进行的,构建 F F F统计量
F = E S S / ( k − 1 ) R S S / ( n − k ) ∼ F ( k − 1 , n − k ) F=\frac{E S S /(k-1)}{R S S /(n-k)} \sim F(k-1, n-k) F=RSS/(n−k)ESS/(k−1)​∼F(k−1,n−k)
即统计量 F F F服从*度为 k − 1 k-1 k−1和 n − k n-k n−k 的 F F F分布。 F F F统计量为单边检验,给定显著性水平 α \alpha α,通过比较统计值 F F F与临界值 F α ( k − 1 , n − k ) F_{\alpha}(k-1, n-k) Fα​(k−1,n−k)的大小即可判断方程显著性。当 F > F α ( k − 1 , n − k ) F>F_{\alpha}(k-1, n-k) F>Fα​(k−1,n−k)拒绝原假设,反之不拒绝。

在一元线性回归中,由于解释变量只有一个,不存在解释变量联合影响的整体检验问题,也就用不着进行 F F F检验。事实上,简单的线性回归模型的 t t t分布与 F F F分布是等价的
F = E S S / ( 2 − 1 ) R S S / ( n − 2 ) = ∑ ( Y ^ i − Y ˉ ) 2 ∑ e i 2 / ( n − 2 ) = ∑ β ^ 1 2 ( X i − X ˉ ) 2 ∑ e i 2 / ( n − 2 ) = β ^ 1 2 ∑ x i 2 σ 2 = β 1 2 σ ^ 2 / ∑ x i 2 = ( β ^ 1 S E ^ ( β ^ 1 ) ) 2 = t 2 \begin{aligned} F=&\frac{E S S /(2-1)}{R S S /(n-2)}=\frac{\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2}}{\sum e_{i}^{2} /(n-2)}=\frac{\sum \hat{\beta}_{1}^{2}\left(X_{i}-\bar{X}\right)^{2}}{\sum e_{i}^{2} /(n-2)} \\ =&\frac{\hat{\beta}_{1}^{2} \sum x_{i}^{2}}{{\sigma}^{2}}=\frac{\beta_{1}^{2}}{\hat{\sigma}^{2} / \sum x_{i}^{2}}=\left(\frac{\hat{\beta}_{1}}{\hat{S E}\left(\hat{\beta}_{1}\right)}\right)^{2}=t^{2} \end{aligned} F==​RSS/(n−2)ESS/(2−1)​=∑ei2​/(n−2)∑(Y^i​−Yˉ)2​=∑ei2​/(n−2)∑β^​12​(Xi​−Xˉ)2​σ2β^​12​∑xi2​​=σ^2/∑xi2​β12​​=⎝⎛​SE^(β^​1​)β^​1​​⎠⎞​2=t2​
另外, F F F检验与拟合优度也存在内在的联系,容易证明
F = n − k k − 1 ⋅ R 2 1 − R 2 \mathrm{F}=\frac{n-k}{k-1} \cdot \frac{R^{2}}{1-R^{2}} F=k−1n−k​⋅1−R2R2​

3.3 回归参数的显著性检验(t-检验)

因为方程的整体线性关系显著并不一定表示每个解释变量对被解释变量的影响都是显著的。因此,还必须分别对每个解释变量进行显著性检验。根据参数估计量的分布性质得到
β ^ j ∼ N [ β j , Var ⁡ ( β ^ j ) ] \hat{\beta}_{j} \sim N\left[\beta_{j}, \operatorname{Var}\left(\hat{\beta}_{j}\right)\right] β^​j​∼N[βj​,Var(β^​j​)]
因此其标准化随机变量服从标准正态分布
Z = β ^ j − β j Var ⁡ ( β ^ j ) ∼ N ( 0 , 1 ) Z=\frac{\hat{\beta}_{j}-\beta_{j}}{\sqrt{\operatorname{Var}\left(\hat{\beta}_{j}\right)}} \sim N(0,1) Z=Var(β^​j​) ​β^​j​−βj​​∼N(0,1)
其中 Var ⁡ ( β ^ j ) = σ 2 C j j \operatorname{Var}\left(\hat{\beta}_{j}\right)=\sigma^{2} C_{j j} Var(β^​j​)=σ2Cjj​。由于 σ 2 \sigma^2 σ2未知,用利用由 e i e_i ei​构造的无偏估计量 σ ^ 2 = ∑ e i 2 / ( n − k ) \hat{\sigma}^{2}=\sum e_{i}^{2}/(n-k) σ^2=∑ei2​/(n−k)取替代总体随机扰动项的方差 σ 2 \sigma^2 σ2。通过证明,此时 β ^ j \hat{\beta}_{j} β^​j​服从Student分布
t = β j − β j σ ^ 2 C j j = β j − β j σ ^ C j j ∼ t ( n − k ) t=\frac{\beta_{j}-\beta_{j}}{\sqrt{\hat{\sigma}^{2} C_{j j}}}=\frac{\beta_{j}-\beta_{j}}{\hat{\sigma} \sqrt{C_{j j}}} \sim t(n-k) t=σ^2Cjj​ ​βj​−βj​​=σ^Cjj​ ​βj​−βj​​∼t(n−k)
具体检验过程如下:

提出检验假设
H 0 : β j = 0 ( j = 1 , 2 , ⋯   , k ) H 1 : β j ≠ 0 ( j = 1 , 2 , ⋯   , k ) \begin{array}{l} H_{0}: \beta_{j}=0 \quad(j=1,2, \cdots, k) \\ H_{1}: \beta_{j} \neq 0 \quad(j=1,2, \cdots, k) \end{array} H0​:βj​=0(j=1,2,⋯,k)H1​:βj​​=0(j=1,2,⋯,k)​
计算统计量:

在 H 0 H_0 H0​成立条件下
t = β j − 0 σ c j j = β j σ c j j ∼ t ( n − k ) t=\frac{\beta_{j}-0}{\sigma \sqrt{c_{j j}}}=\frac{\beta_{j}}{\sigma \sqrt{c_{j j}}} \sim t(n-k) t=σcjj​ ​βj​−0​=σcjj​ ​βj​​∼t(n−k)
根据样本观测值计算t 统计量的值
t = β ^ j σ ^ C j j t=\frac{\hat{\beta}_{j}}{\hat{\sigma} \sqrt{C_{j j}}} t=σ^Cjj​ ​β^​j​​
检验

给定显著性水平 α \alpha α ,查*度为 n − k n-k n−k 的 t t t分布表,得临界值 t α / 2 ( n − k ) t_{\alpha / 2}(n-k) tα/2​(n−k)。若 ∣ t ∣ ≥ t α / 2 ( n − k ) |t| \geq t_{\alpha / 2}(n-k) ∣t∣≥tα/2​(n−k)拒绝原假设。反之不拒绝。


4 多元线性回归模型的预测

4.1 点预测

设多元线性回归模型为
Y = X β + U \mathrm{Y}=\mathrm{X} \beta+\mathrm{U} Y=Xβ+U
根据观测样本已经估计出参数 β \beta β,得到样本回归方程且模型通过检验,即
Y ^ = X β ^ \hat{\mathbf{Y}}=\mathbf{X} \hat{\boldsymbol{\beta}} Y^=Xβ^​
把样本以外各个解释变量的值表示为行向量
X f = ( 1 , X 2 f , X 3 f , ⋯   , X k f ) \mathbf{X}_{\mathrm{f}}=\left(1, X_{2 f}, X_{3 f}, \cdots, X_{k f}\right) Xf​=(1,X2f​,X3f​,⋯,Xkf​)
代入估计的多元线性回归函数
Y ^ f = X f β ^ = β ^ 1 + β ^ 2 X 2 f + β ^ 3 X 3 f + ⋯ + β ^ k X k f \begin{aligned} \hat{Y}_{f} &=\mathbf{X}_{\mathrm{f}} \hat{\boldsymbol{\beta}} \\ &=\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 f}+\hat{\beta}_{3} X_{3 f}+\cdots+\hat{\beta}_{k} X_{k f} \end{aligned} Y^f​​=Xf​β^​=β^​1​+β^​2​X2f​+β^​3​X3f​+⋯+β^​k​Xkf​​
两边期望得
E ( Y ^ f ) = E ( β ^ 1 + β ^ 2 X 2 f + β ^ 3 X 3 f + ⋯ + β ^ k X k f ) = β 1 + β 2 X 2 f + β 3 X 3 f + ⋯ + β k X k f = E ( Y f ) \begin{aligned} E\left(\hat{Y}_{f}\right) &=E\left(\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 f}+\hat{\beta}_{3} X_{3 f}+\cdots+\hat{\beta}_{k} X_{k f}\right) \\ &=\beta_{1}+\beta_{2} X_{2 f}+\beta_{3} X_{3 f}+\cdots+\beta_{k} X_{k f} \\ &=E\left(Y_{f}\right) \end{aligned} E(Y^f​)​=E(β^​1​+β^​2​X2f​+β^​3​X3f​+⋯+β^​k​Xkf​)=β1​+β2​X2f​+β3​X3f​+⋯+βk​Xkf​=E(Yf​)​
说明 Y ^ f \hat{Y}_{f} Y^f​是 E ( Y f ) E(Y_f) E(Yf​)的无偏估计,可以用 Y ^ f \hat{Y}_{f} Y^f​作 E ( Y f ) E(Y_f) E(Yf​)和 Y f Y_f Yf​的点预测值

4.2 平均值 E ( Y f ) E(Y_f) E(Yf​)的预测

记 Y ^ f \hat{Y}_{f} Y^f​与 E ( Y f ) E(Y_f) E(Yf​)的偏差为 w f w_f wf​,由于 Y ^ f \hat{Y}_{f} Y^f​服从正态分布,故 w f w_f wf​也服从正态分布,其期望为
E ( w f ) = E [ Y f − E ( Y f ) ] = E ( Y ^ f ) − E ( Y f ) = 0 E\left(w_{f}\right)=E\left[Y_{f}-E\left(Y_{f}\right)\right]=E\left(\hat{Y}_{f}\right)-E\left(Y_{f}\right)=0 E(wf​)=E[Yf​−E(Yf​)]=E(Y^f​)−E(Yf​)=0
其分布满足
w f ∼ N [ 0 , σ 2 X f ( X ′ X ) − 1 X f ′ ] w_{f} \sim N\left[0, \sigma^{2} \mathbf{X}_{\mathrm{f}}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}_{f}^{\prime}\right] wf​∼N[0,σ2Xf​(X′X)−1Xf′​]
用 σ ^ 2 \hat{\sigma}^2 σ^2替代 σ 2 \sigma^2 σ2得到
t = w f − E ( w f ) S E ( w f ) = Y ^ f − E ( Y f ) σ ^ X f ( X ′ X ) − 1 X f ′ t=\frac{w_{f}-E\left(w_{f}\right)}{S E\left(w_{f}\right)}=\frac{\hat{Y}_{f}-E\left(Y_{f}\right)}{\hat{\sigma} \sqrt{\mathbf{X}_{\mathrm{f}}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}_{\mathrm{f}}^{\prime}}} t=SE(wf​)wf​−E(wf​)​=σ^Xf​(X′X)−1Xf′​ ​Y^f​−E(Yf​)​
该统计量 t t t 服从*度为 n − k n-k n−k 的 t t t分布。给定显著性水平 α \alpha α其预测区间为
Y f − t α / 2 σ X f ( X ′ X ) − 1 X f ′ ≤ E ( Y f ) ≤ Y ^ f + t α / 2 σ ~ X f ( X ′ X ) − 1 X f ′ Y_{f}-t_{\alpha / 2} \sigma \sqrt{\mathbf{X}_{\mathbf{f}}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}_{f}^{\prime}} \leq E\left(Y_{f}\right) \leq \hat{Y}_{f}+t_{\alpha / 2} \tilde{\sigma} \sqrt{\mathbf{X}_{\mathbf{f}}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}_{\mathbf{f}}^{\prime}} Yf​−tα/2​σXf​(X′X)−1Xf′​ ​≤E(Yf​)≤Y^f​+tα/2​σ~Xf​(X′X)−1Xf′​

4.3 个别值 Y f Y_f Yf​的区间预测

点预测值 Y ^ f \hat{Y}_f Y^f​和预测期个别值 Y f Y_f Yf​ 有关的是残差 e f e_f ef​,残差也服从正态分布,其分布为
e f ∼ N { 0 , σ 2 [ 1 + X f ( X ′ X ) − 1 X f ′ ] } e_{f} \sim N\left\{0, \sigma^{2}\left[1+\mathbf{X}_{\mathbf{f}}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}_{\mathbf{f}}^{\prime}\right]\right\} ef​∼N{0,σ2[1+Xf​(X′X)−1Xf′​]}
用 σ ^ 2 \hat{\sigma}^2 σ^2替代 σ 2 \sigma^2 σ2得到
t = e f − E ( e f ) S E ( e f ) = Y f − Y ^ f σ ^ 1 + X f ( X ′ X ) − 1 X f ′ t=\frac{e_{f}-E\left(e_{f}\right)}{S E\left(e_{f}\right)}=\frac{Y_{f}-\hat{Y}_{f}}{\hat{\sigma} \sqrt{1+\mathbf{X}_{\mathbf{f}}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}_{\mathbf{f}}^{\prime}}} t=SE(ef​)ef​−E(ef​)​=σ^1+Xf​(X′X)−1Xf′​ ​Yf​−Y^f​​
该统计量 t t t 服从*度为 n − k n-k n−k 的 t t t分布。给定显著性水平 α \alpha α其预测区间为
Y f − t α / 2 σ 1 + X f ( X ′ X ) − 1 X f ′ ≤ Y f ≤ Y f + t α / 2 σ ^ 1 + X f ( X ′ X ) − 1 X f ′ Y_{f}-t_{\alpha / 2} \sigma \sqrt{1+\mathbf{X}_{\mathbf{f}}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}_{\mathbf{f}}^{\prime}} \leq Y_{f} \leq Y_{f}+t_{\alpha / 2} \hat{\sigma} \sqrt{1+\mathbf{X}_{\mathbf{f}}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}_{\mathbf{f}}^{\prime}} Yf​−tα/2​σ1+Xf​(X′X)−1Xf′​ ​≤Yf​≤Yf​+tα/2​σ^1+Xf​(X′X)−1Xf′​


-END-

参考文献

庞皓. 计量经济学[M].科学出版社
陈强.高级计量经济学[M].高等教育出版社

上一篇:pytorch自学笔记——softmax回归


下一篇:Python重构(三)