多元线性回归方程
文章目录
简单线性回归模型仅包含一个解释变量,考虑实际经济问题的复杂性,影响研究对象的因素往往不止一个,因此有必要构建多元线性回归模型。
1.多元线性回归模型
定义:包含被解释变量
Y
Y
Y与
k
−
1
k-1
k−1个解释变量
X
2
,
X
3
…
X
k
X_2,X_3 \dots X_k
X2,X3…Xk的多元线性回归函数形式
Y
i
=
β
1
+
β
2
X
2
i
+
β
3
X
3
i
+
⋯
+
β
k
X
k
i
+
u
i
Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}+u_{i}
Yi=β1+β2X2i+β3X3i+⋯+βkXki+ui
其中
β
j
\beta_j
βj为模型参数。
μ
\mu
μ为随机扰动项。若被解释变量与解释变量都作了
n
n
n次观测,则
∀
i
∈
(
1
,
n
)
\forall i \in (1,n)
∀i∈(1,n)都满足
Y
i
=
β
1
+
β
2
X
2
i
+
β
3
X
3
i
+
⋯
+
β
k
X
k
i
+
u
i
(
i
=
1
,
2
,
⋯
,
n
)
Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}+u_{i} \quad(i=1,2, \cdots, n)
Yi=β1+β2X2i+β3X3i+⋯+βkXki+ui(i=1,2,⋯,n)
在解释变量
X
=
(
X
2
,
…
X
k
)
′
\boldsymbol X = (X_{2},\dots X_{k})'
X=(X2,…Xk)′条件下,
Y
i
Y_i
Yi的条件期望为
E
(
Y
∣
X
2
i
,
X
3
i
,
⋯
,
X
k
i
)
=
β
1
+
β
2
X
2
i
+
β
3
X
3
i
+
⋯
+
β
k
X
k
i
E\left(Y \mid X_{2 i}, X_{3 i}, \cdots, X_{k i}\right)=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}
E(Y∣X2i,X3i,⋯,Xki)=β1+β2X2i+β3X3i+⋯+βkXki
其中
β
j
\beta_j
βj表示偏回归系数(偏斜率),表示在其他解释变量不变条件下,
X
j
X_j
Xj每增加一个单位,
Y
Y
Y的条件期望增加
β
j
\beta_j
βj个单位,即
∂
E
(
Y
∣
X
)
∂
X
j
=
β
j
\frac{\partial E(Y|\boldsymbol X)}{\partial X_j} = \beta_j
∂Xj∂E(Y∣X)=βj
与简单的线性回归模型一样,多元线性回归模型也有总体回归模型PRF与样本回归模型SRF,多元线性回归模型的SRF为
Y
^
i
=
β
^
1
+
β
^
2
X
2
i
+
β
^
3
X
3
i
+
⋯
+
β
^
k
X
k
i
\hat{Y}_{i}=\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 i}+\hat{\beta}_{3} X_{3 i}+\cdots+\hat{\beta}_{k} X_{k i}
Y^i=β^1+β^2X2i+β^3X3i+⋯+β^kXki
它表示在总体中进行重复抽样获得的某一系列具体的观测数据条件下,通过某种估计方法计算得到的SRF.其中
β
^
j
\hat \beta_j
β^j表示对总体参数
β
j
\beta_j
βj的估计。当然被解释变量
Y
^
i
\hat{Y}_i
Y^i也是对观测值
Y
i
Y_i
Yi的估计,它们之间存在误差
e
i
e_i
ei满足
Y
i
=
Y
^
i
+
e
i
Y_{i}=\hat{Y}_{i}+e_{i}
Yi=Y^i+ei
对于
n
n
n次样本观测,则
Y
i
=
β
^
1
+
β
2
X
^
2
i
+
β
^
3
X
3
i
+
⋯
+
β
k
X
k
i
+
e
i
Y_{i}=\hat{\beta}_{1}+\beta_{2} \hat{X}_{2 i}+\hat{\beta}_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}+e_{i}
Yi=β^1+β2X^2i+β^3X3i+⋯+βkXki+ei
其中
i
=
1
,
2
,
…
n
i = 1,2,\dots n
i=1,2,…n
1.1多元线性回归模型的矩阵式
对于
n
n
n次观测,我们将每一次的观测
i
i
i代入PRF中
Y
1
=
β
1
+
β
2
X
21
+
β
3
X
31
+
⋯
+
β
k
X
k
1
+
u
1
Y
2
=
β
1
+
β
2
X
22
+
β
3
X
32
+
⋯
+
β
k
X
k
2
+
u
2
…
Y
2
=
β
1
+
β
2
X
2
n
+
β
3
X
3
n
+
⋯
+
β
k
X
k
n
+
u
n
\begin{array}{l} Y_{1}=\beta_{1}+\beta_{2} X_{21}+\beta_{3} X_{31}+\cdots+\beta_{k} X_{k 1}+u_{1} \\ Y_{2}=\beta_{1}+\beta_{2} X_{22}+\beta_{3} X_{32}+\cdots+\beta_{k} X_{k 2}+u_{2}\\ \dots \\ Y_{2}=\beta_{1}+\beta_{2} X_{2n}+\beta_{3} X_{3n}+\cdots+\beta_{k} X_{k n}+u_{n} \end{array}
Y1=β1+β2X21+β3X31+⋯+βkXk1+u1Y2=β1+β2X22+β3X32+⋯+βkXk2+u2…Y2=β1+β2X2n+β3X3n+⋯+βkXkn+un
改写为矩阵形式
Y
=
[
Y
1
Y
2
⋮
Y
n
]
β
=
[
β
1
β
2
⋮
β
k
]
U
=
[
u
1
u
2
⋮
u
n
]
X
=
[
1
X
21
X
31
⋯
X
k
1
1
X
22
X
32
⋯
X
k
2
⋯
⋯
⋯
⋯
⋯
1
X
2
n
X
3
n
⋯
X
k
n
]
\mathbf{Y}=\left[\begin{array}{c} Y_{1} \\ Y_{2} \\ \vdots \\ Y_{n} \end{array}\right] \quad \beta=\left[\begin{array}{c} \beta_{1} \\ \beta_{2} \\ \vdots \\ \beta_{k} \end{array}\right] \quad U=\left[\begin{array}{c} u_{1} \\ u_{2} \\ \vdots \\ u_{n} \end{array}\right] \mathbf{X}=\left[\begin{array}{ccccc} 1 & X_{21} & X_{31} & \cdots & X_{k 1} \\ 1 & X_{22} & X_{32} & \cdots & X_{k 2} \\ \cdots & \cdots & \cdots & \cdots & \cdots \\ 1 & X_{2 n} & X_{3 n} & \cdots & X_{k n} \end{array}\right]
Y=⎣⎢⎢⎢⎡Y1Y2⋮Yn⎦⎥⎥⎥⎤β=⎣⎢⎢⎢⎡β1β2⋮βk⎦⎥⎥⎥⎤U=⎣⎢⎢⎢⎡u1u2⋮un⎦⎥⎥⎥⎤X=⎣⎢⎢⎡11⋯1X21X22⋯X2nX31X32⋯X3n⋯⋯⋯⋯Xk1Xk2⋯Xkn⎦⎥⎥⎤
其中
X
、
Y
X、Y
X、Y称为解释变量、被解释变量的数据矩阵,
β
\beta
β称为参数向量,
U
U
U为扰动项向量。于是
Y
=
X
β
+
U
\mathbf{Y}=\mathbf{X} \beta+\mathbf{U}
Y=Xβ+U
或取期望
E
(
Y
∣
X
)
=
X
β
E(\mathbf{Y}|\boldsymbol X)=\mathbf{X} \boldsymbol{\beta}
E(Y∣X)=Xβ
对于SRF,自然也有
Y
=
X
β
^
+
e
\mathbf{Y}=\mathbf{X} \hat{\boldsymbol{\beta}}+\mathbf{e}
Y=Xβ^+e
或取期望
Y
^
=
X
β
^
\hat{\mathbf{Y}}=\mathbf{X} \hat{\boldsymbol{\beta}}
Y^=Xβ^
其中
β
^
=
[
β
^
1
β
^
2
⋮
β
^
k
]
e
=
[
e
1
e
2
⋮
e
n
]
Y
^
=
[
Y
^
1
Y
^
2
⋮
Y
^
n
]
\hat{\boldsymbol{\beta}}=\left[\begin{array}{c} \hat{\beta}_{1} \\ \hat{\beta}_{2} \\ \vdots \\ \hat{\beta}_{k} \end{array}\right] \quad \mathbf{e}=\left[\begin{array}{c} e_{1} \\ e_{2} \\ \vdots \\ e_{n} \end{array}\right] \quad \hat{\mathbf{Y}}=\left[\begin{array}{c} \hat{Y}_{1} \\ \hat{Y}_{2} \\ \vdots \\ \hat{Y}_{n} \end{array}\right]
β^=⎣⎢⎢⎢⎡β^1β^2⋮β^k⎦⎥⎥⎥⎤e=⎣⎢⎢⎢⎡e1e2⋮en⎦⎥⎥⎥⎤Y^=⎣⎢⎢⎢⎡Y^1Y^2⋮Y^n⎦⎥⎥⎥⎤
1.2多元线性回归模型的古典假定
简单线性回归模型的假定共有三个,即严格外生假定、球形扰动项假定(同方差、无自相关)与正态分布假定;而多元线性回归模型除了以上三个假定外,还必须满足五多重共线性假定。
假定1:严格外生性假定,即
E
(
μ
∣
X
)
=
0
E(\mu|\boldsymbol X) = 0
E(μ∣X)=0
利用期望迭代定律推导出
E
(
μ
)
=
0
E(\mu) = 0
E(μ)=0,从而得到
C
o
v
(
X
i
j
,
μ
i
)
=
E
(
X
i
j
μ
i
)
=
0
Cov(X_{ij},\mu_i) = E(X_{ij}\mu_i) = 0
Cov(Xij,μi)=E(Xijμi)=0
假定2:球形扰动项假定(同方差假定与无自相关假定)
Cov
(
u
i
,
u
k
)
=
E
[
(
u
i
−
E
u
i
)
(
u
k
−
E
u
k
)
]
=
E
(
u
i
u
k
)
=
{
σ
2
,
i
=
k
0
,
i
≠
k
(
i
,
k
=
1
,
2
,
⋯
,
n
)
\begin{array}{l} \operatorname{Cov}\left(u_{i}, u_{k}\right)=E\left[\left(u_{i}-E u_{i}\right)\left(u_{k}-E u_{k}\right)\right] \\ =E\left(u_{i} u_{k}\right)=\left\{\begin{array}{c} \sigma^{2}, i=k \\ 0, i \neq k \end{array} \quad(i, k=1,2, \cdots, n)\right. \end{array}
Cov(ui,uk)=E[(ui−Eui)(uk−Euk)]=E(uiuk)={σ2,i=k0,i=k(i,k=1,2,⋯,n)
随机扰动项的方差—协方差矩阵为
Var
(
U
)
=
E
[
(
U
−
E
U
)
(
U
−
E
U
)
′
]
=
E
(
U
U
′
)
=
[
E
(
u
1
u
1
)
E
(
u
1
u
2
)
⋯
E
(
u
1
u
n
)
E
(
u
2
u
1
)
E
(
u
2
u
2
)
⋯
E
(
u
2
u
n
)
⋮
⋮
⋯
⋮
E
(
u
n
u
1
)
E
(
u
n
u
2
)
⋯
E
(
u
n
u
n
)
]
=
[
σ
2
0
⋯
0
0
σ
2
⋯
0
⋯
⋯
⋯
⋯
0
0
⋯
σ
2
]
\begin{aligned} \operatorname{Var}(\mathbf{U})=&E\left[(\mathbf{U}-E \mathbf{U})(\mathbf{U}-E \mathbf{U})^{\prime}\right]=E\left(\mathbf{U} \mathbf{U}^{\prime}\right) \\ =& \left[\begin{array}{cccc} E\left(u_{1} u_{1}\right) & E\left(u_{1} u_{2}\right) & \cdots & E\left(u_{1} u_{n}\right) \\ E\left(u_{2} u_{1}\right) & E\left(u_{2} u_{2}\right) & \cdots & E\left(u_{2} u_{n}\right) \\ \vdots & \vdots & \cdots & \vdots \\ E\left(u_{n} u_{1}\right) & E\left(u_{n} u_{2}\right) & \cdots & E\left(u_{n} u_{n}\right) \end{array}\right] \\ =& \left[\begin{array}{cccc} \sigma^{2} & 0 & \cdots & 0 \\ 0 & \sigma^{2} & \cdots & 0 \\ \cdots & \cdots & \cdots & \cdots \\ 0 & 0 & \cdots & \sigma^{2} \end{array}\right] \end{aligned}
Var(U)===E[(U−EU)(U−EU)′]=E(UU′)⎣⎢⎢⎢⎡E(u1u1)E(u2u1)⋮E(unu1)E(u1u2)E(u2u2)⋮E(unu2)⋯⋯⋯⋯E(u1un)E(u2un)⋮E(unun)⎦⎥⎥⎥⎤⎣⎢⎢⎡σ20⋯00σ2⋯0⋯⋯⋯⋯00⋯σ2⎦⎥⎥⎤
即
Var
(
U
)
=
σ
2
I
n
\operatorname{Var}(\mathbf{U})=\sigma^{2} \mathbf{I}_{n}
Var(U)=σ2In
其中
I
n
I_n
In为
n
n
n阶单位阵。
假定3:无多重共线性假定:各解释变量之间不存在线性关系
Rank
(
X
)
=
k
(
k
+
1
<
n
)
\operatorname{Rank}(\mathbf{X})=k\;\;(k+1 < n)
Rank(X)=k(k+1<n)
此时方阵
X
′
X
\boldsymbol X' \boldsymbol X
X′X满秩
Rank
(
X
′
X
)
=
k
\operatorname{Rank}\left(\mathbf{X}^{\prime} \mathbf{X}\right)=\mathrm{k}
Rank(X′X)=k
从而
X
′
X
\boldsymbol X' \boldsymbol X
X′X可逆,
(
X
′
X
)
−
1
(\boldsymbol X' \boldsymbol X)^{-1}
(X′X)−1存在
假定4:正态性假定
u
i
∼
N
(
0
,
σ
2
)
u_{i} \sim N\left(0, \sigma^{2}\right)
ui∼N(0,σ2)
2.多元线性回归模型的估计
2.1最小二乘估计(矩估计)
根据简单的线性回归模型,多元线性回归模型也需要满足残差平方和最小,即
min
∑
e
i
2
=
min
∑
[
Y
i
−
(
β
1
+
β
2
X
2
i
+
β
3
X
3
i
+
⋯
+
β
k
X
k
i
)
]
2
\min \sum e_{i}^{2}=\min \sum\left[Y_{i}-\left(\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}\right)\right]^{2}
min∑ei2=min∑[Yi−(β1+β2X2i+β3X3i+⋯+βkXki)]2
根据多元微积分知识,要使得剩余平方和最小,需要满足
∂
(
∑
e
i
2
)
∂
β
^
j
=
0
(
j
=
1
,
2
,
⋯
,
k
)
\frac{\partial\left(\sum e_{i}^{2}\right)}{\partial \hat{\beta}_{j}}=0 \quad(j=1,2, \cdots, k)
∂β^j∂(∑ei2)=0(j=1,2,⋯,k)
即
−
2
∑
[
Y
i
−
(
β
1
+
β
2
X
2
i
+
β
3
X
3
i
+
⋯
+
β
k
X
k
i
)
]
=
0
−
2
∑
X
2
i
[
Y
i
−
(
β
1
+
β
2
X
2
i
+
β
3
X
3
i
+
⋯
+
β
k
X
k
i
)
]
=
0
…
−
2
∑
X
k
i
[
Y
i
−
(
β
1
+
β
2
X
2
i
+
β
3
X
3
i
+
⋯
+
β
k
X
k
i
)
]
=
0
\begin{aligned} &-2 \sum\left[Y_{i}-\left(\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}\right)\right]=0\\ &-2 \sum X_{2 i}\left[Y_{i}-\left(\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}\right)\right]=0\\ &\dots \\ &-2 \sum X_{k i}\left[Y_{i}-\left(\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+\cdots+\beta_{k} X_{k i}\right)\right]=0 \end{aligned}
−2∑[Yi−(β1+β2X2i+β3X3i+⋯+βkXki)]=0−2∑X2i[Yi−(β1+β2X2i+β3X3i+⋯+βkXki)]=0…−2∑Xki[Yi−(β1+β2X2i+β3X3i+⋯+βkXki)]=0
上述各式中方括号内的各项恰好为残差
e
i
e_i
ei,则
[
∑
e
i
∑
X
2
i
e
i
⋮
∑
X
k
i
e
i
]
=
[
1
1
⋯
1
X
21
X
22
⋯
X
2
n
⋮
⋮
⋯
⋮
X
k
1
X
k
2
⋯
X
k
n
]
[
e
1
e
2
⋮
e
n
]
=
X
′
e
=
[
0
0
⋮
0
]
\left[\begin{array}{c} \sum e_{i} \\ \sum X_{2 i} e_{i} \\ \vdots \\ \sum X_{k i} e_{i} \end{array}\right]=\left[\begin{array}{cccc} 1 & 1 & \cdots & 1 \\ X_{21} & X_{22} & \cdots & X_{2 n} \\ \vdots & \vdots & \cdots & \vdots \\ X_{k 1} & X_{k 2} & \cdots & X_{k n} \end{array}\right]\left[\begin{array}{c} e_{1} \\ e_{2} \\ \vdots \\ e_{n} \end{array}\right]=X^{\prime} e=\left[\begin{array}{c} 0 \\ 0 \\ \vdots \\ 0 \end{array}\right]
⎣⎢⎢⎢⎡∑ei∑X2iei⋮∑Xkiei⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡1X21⋮Xk11X22⋮Xk2⋯⋯⋯⋯1X2n⋮Xkn⎦⎥⎥⎥⎤⎣⎢⎢⎢⎡e1e2⋮en⎦⎥⎥⎥⎤=X′e=⎣⎢⎢⎢⎡00⋮0⎦⎥⎥⎥⎤
对样本回归函数SRF两边同乘以样本观测值矩阵的转置
X
′
\boldsymbol X'
X′
X
′
Y
=
X
′
X
β
^
+
X
′
e
\mathbf{X}^{\prime} \mathbf{Y}=\mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}+\mathbf{X}^{\prime} \mathbf{e}
X′Y=X′Xβ^+X′e
即
X
′
Y
=
X
′
X
β
^
\mathbf{X}^{\prime} \mathbf{Y}=\mathbf{X}^{\prime} \mathbf{X} \hat{\boldsymbol{\beta}}
X′Y=X′Xβ^
根据假定4,
(
X
′
X
)
−
1
(\boldsymbol X' \boldsymbol X)^{-1}
(X′X)−1存在,解得
β
^
=
(
X
′
X
)
−
1
X
′
Y
\hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y}
β^=(X′X)−1X′Y
考虑只有两个解释变量情形,即
Y
i
=
β
1
+
β
2
X
2
i
+
β
3
X
3
i
+
u
i
Y_{i}=\beta_{1}+\beta_{2} X_{2 i}+\beta_{3} X_{3 i}+u_{i}
Yi=β1+β2X2i+β3X3i+ui,代入参数估计式展开得
β
^
2
=
(
∑
y
i
x
2
i
)
(
∑
x
3
i
2
)
−
(
∑
y
i
x
3
i
)
(
∑
x
2
i
x
3
i
)
(
∑
x
2
i
2
)
(
∑
x
3
i
2
)
−
(
∑
x
2
i
x
3
i
)
2
β
^
3
=
(
∑
y
i
x
3
i
)
(
∑
x
2
i
2
)
−
(
∑
y
i
x
2
i
)
(
∑
x
2
i
x
3
i
)
(
∑
x
2
i
2
)
(
∑
x
3
i
2
)
−
(
∑
x
2
i
x
3
i
)
2
β
^
1
=
Y
ˉ
−
β
^
2
X
ˉ
2
−
β
^
3
X
ˉ
3
\begin{array}{l} \hat{\beta}_{2}=\frac{\left(\sum y_{i} x_{2 i}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum y_{i} x_{3 i}\right)\left(\sum x_{2 i} x_{3 i}\right)}{\left(\sum x_{2 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum x_{2 i} x_{3 i}\right)^{2}} \\ \\ \hat{\beta}_{3}=\frac{\left(\sum y_{i} x_{3 i}\right)\left(\sum x_{2 i}^{2}\right)-\left(\sum y_{i} x_{2 i}\right)\left(\sum x_{2 i} x_{3 i}\right)}{\left(\sum x_{2 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum x_{2 i} x_{3 i}\right)^{2}} \\ \\ \hat{\beta}_{1}=\bar{Y}-\hat{\beta}_{2} \bar{X}_{2}-\hat{\beta}_{3} \bar{X}_{3} \end{array}
β^2=(∑x2i2)(∑x3i2)−(∑x2ix3i)2(∑yix2i)(∑x3i2)−(∑yix3i)(∑x2ix3i)β^3=(∑x2i2)(∑x3i2)−(∑x2ix3i)2(∑yix3i)(∑x2i2)−(∑yix2i)(∑x2ix3i)β^1=Yˉ−β^2Xˉ2−β^3Xˉ3
其中
x
i
=
X
i
−
X
ˉ
,
y
i
=
Y
i
−
Y
ˉ
x_{i}=X_{i}-\bar{X}, y_{i}=Y_{i}-\bar{Y}
xi=Xi−Xˉ,yi=Yi−Yˉ
2.2 最小二乘估计(向量导数)
min β ⃗ SSR ( β ~ ) = ∑ i = 1 n e i 2 = e ′ e = ( Y − X β ~ ) ′ ( Y − X β ~ ) = ( Y ′ − β ~ ′ X ′ ) ( Y − X β ~ ) = Y ′ Y − Y ′ X β ~ − β ~ ′ X ′ Y + β ~ ′ X ′ X β ~ = Y ′ Y − 2 Y ′ X β ~ + β ~ ′ X ′ X β ~ \begin{aligned} \min _{\vec{\beta}} \operatorname{SSR}(\tilde{\boldsymbol{\beta}}) &=\sum_{i=1}^{n} e_{i}^{2}=\boldsymbol{e}^{\prime} \boldsymbol{e} \\ &=(\boldsymbol{Y}-\boldsymbol{X} \tilde{\boldsymbol{\beta}})^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \tilde{\boldsymbol{\beta}}) \\ &=\left(\boldsymbol{Y}^{\prime}-\tilde{\boldsymbol{\beta}}^{\prime} \boldsymbol{X}^{\prime}\right)(\boldsymbol{Y}-\boldsymbol{X} \tilde{\boldsymbol{\beta}})\\ &=\boldsymbol Y^{\prime} \boldsymbol Y-\boldsymbol Y^{\prime} \boldsymbol X \tilde{\boldsymbol \beta}-\tilde{\boldsymbol \beta}^{\prime} \boldsymbol X^{\prime}\boldsymbol Y+\tilde{\boldsymbol \beta}^{\prime}\boldsymbol X^{\prime} \boldsymbol X \tilde{\boldsymbol \beta} \\ &=\boldsymbol Y^{\prime}\boldsymbol Y-2 \boldsymbol Y^{\prime}\boldsymbol X \tilde{\boldsymbol \beta}+\tilde{\boldsymbol \beta}^{\prime} \boldsymbol X^{\prime}\boldsymbol X \tilde{\boldsymbol \beta} \end{aligned} β minSSR(β~)=i=1∑nei2=e′e=(Y−Xβ~)′(Y−Xβ~)=(Y′−β~′X′)(Y−Xβ~)=Y′Y−Y′Xβ~−β~′X′Y+β~′X′Xβ~=Y′Y−2Y′Xβ~+β~′X′Xβ~
使用向量微分规则,可得最小化的一阶条件
∂
(
S
S
R
)
∂
β
~
=
−
2
X
′
y
+
2
X
′
X
β
~
=
0
\frac{\partial(\mathrm{SSR})}{\partial \tilde{\boldsymbol \beta}}=-2 \boldsymbol X^{\prime} \boldsymbol y+2 \boldsymbol X^{\prime} \boldsymbol X \tilde{\boldsymbol \beta}=0
∂β~∂(SSR)=−2X′y+2X′Xβ~=0
β ^ = ( X ′ X ) − 1 X ′ Y \hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y} β^=(X′X)−1X′Y
2.3 参数最小二乘的性质
1 线性性质
因为
β
^
=
(
X
′
X
)
−
1
X
′
Y
=
b
Y
\hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y} = \boldsymbol b\boldsymbol Y
β^=(X′X)−1X′Y=bY
其中
b
=
(
X
′
X
)
−
1
X
′
\boldsymbol b = (\boldsymbol X' \boldsymbol X)^{-1} \boldsymbol X'
b=(X′X)−1X′
2 无偏性
E
(
β
^
∣
X
)
=
β
\mathrm{E}(\boldsymbol{\hat{ \beta}} \mid \boldsymbol{X})=\boldsymbol{\beta}
E(β^∣X)=β
证明:
E
(
β
^
∣
X
)
=
E
(
(
X
′
X
)
−
1
X
′
Y
∣
X
)
=
(
X
′
X
)
−
1
X
′
E
(
Y
∣
X
)
=
(
X
′
X
)
−
1
X
′
(
X
β
)
=
β
\begin{aligned} E(\hat{\boldsymbol{\beta}}|\boldsymbol X)&=E(\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y} |\boldsymbol X) \\ &= \left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} E(\boldsymbol Y|\boldsymbol X)\\ &= \left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} (\boldsymbol X \boldsymbol \beta) = \boldsymbol \beta \end{aligned}
E(β^∣X)=E((X′X)−1X′Y∣X)=(X′X)−1X′E(Y∣X)=(X′X)−1X′(Xβ)=β
3 最小方差性
参数向量 β \boldsymbol \beta β的最小二乘估计 β ^ \hat{\boldsymbol {\beta}} β^是 β \boldsymbol \beta β的所有线性无偏估计量中方差最小的估计量,证明繁琐略
在古典假定都满足的条件下,多元线性回归模型的最小二乘估计式也是最佳线性无偏估计式(BLUE)。
2.4 OLS 估计量的分布性质
根据正态分布假定与估计量的线性性,随机扰动项
u
i
∼
N
(
0
,
σ
2
)
u_{i} \sim N\left(0, \sigma^{2}\right)
ui∼N(0,σ2),则参数
β
^
\hat{\boldsymbol \beta}
β^服从正态分布。根据无偏性得到
β
^
\hat{\boldsymbol \beta}
β^的期望为
E
(
β
^
)
=
β
\mathbf{E}(\hat{\boldsymbol{\beta}})=\boldsymbol{\beta}
E(β^)=β
根据方差协方差矩阵公式
V
a
r
−
Cov
(
β
)
=
σ
2
(
X
X
)
−
1
V a r-\operatorname{Cov}(\boldsymbol{\beta})=\sigma^{2}(\mathbf{X} \mathbf{X})^{-1}
Var−Cov(β)=σ2(XX)−1
故
β
^
\hat{\boldsymbol \beta}
β^的方差为方差协方差矩阵对角线
Var
(
β
j
)
=
σ
2
c
j
j
\operatorname{Var}\left(\beta_{j}\right)=\sigma^{2} c_{j j}
Var(βj)=σ2cjj
c
j
j
c_{jj}
cjj表示矩阵
(
X
X
)
−
1
(\mathbf{X} \mathbf{X})^{-1}
(XX)−1对角线的元素,对应的标准差为
S
E
(
β
^
j
)
=
σ
c
j
j
S E\left(\hat{\beta}_{j}\right)=\sigma \sqrt{c_{j j}}
SE(β^j)=σcjj
该式包含未知参数
σ
\sigma
σ,用无偏估计量
σ
^
2
=
∑
e
i
2
n
−
k
\hat{\sigma}^{2}=\frac{\sum e_{i}^{2}}{n-k}
σ^2=n−k∑ei2替代
σ
2
\sigma^2
σ2即可。在假定1-4条件下,参数
β
^
j
\hat{\boldsymbol \beta}_j
β^j服从正态分布
β
^
j
∼
N
[
β
j
,
Var
(
β
^
j
)
]
\hat{\beta}_{j} \sim N\left[\beta_{j}, \operatorname{Var}\left(\hat{\beta}_{j}\right)\right]
β^j∼N[βj,Var(β^j)]
2.5 参数区间估计
一般情况下,我们研究对象的总体无法获取,一种方法是通过样本数据推断总体的参数特征。给定参数
β
^
j
\hat{\beta}_j
β^j,由于它的标准差包含未知参数
σ
\sigma
σ,可以利用由
e
i
e_i
ei构造的无偏估计量
σ
^
2
=
∑
e
i
2
/
(
n
−
k
)
\hat{\sigma}^{2}=\sum e_{i}^{2}/(n-k)
σ^2=∑ei2/(n−k)取替代总体随机扰动项的方差
σ
2
\sigma^2
σ2。经过证明
t
∗
=
β
^
j
−
β
j
S
E
^
(
β
^
j
)
=
β
^
j
−
β
j
σ
^
c
j
j
∼
t
(
n
−
k
)
t^{*}=\frac{\hat{\beta}_{j}-\beta_{j}}{\hat{S E}\left(\hat{\beta}_{j}\right)}=\frac{\hat{\beta}_{j}-\beta_{j}}{\hat{\sigma} \sqrt{c_{j j}}} \sim t(n-k)
t∗=SE^(β^j)β^j−βj=σ^cjj
β^j−βj∼t(n−k)
其中
k
k
k为参数个数。查
t
t
t分布表*度
n
−
k
n-k
n−k的临界值为
t
α
/
2
(
n
−
k
)
t_{\alpha / 2}(n-k)
tα/2(n−k),则有
P
[
−
t
α
/
2
(
n
−
k
)
≤
t
∗
=
β
^
j
−
β
j
S
E
^
(
β
^
j
)
≤
t
α
/
2
(
n
−
k
)
]
=
1
−
α
P\left[-t_{\alpha / 2}(n-k) \leq t^{*}=\frac{\hat{\beta}_{j}-\beta_{j}}{\hat{S E}\left(\hat{\beta}_{j}\right)} \leq t_{\alpha / 2}(n-k)\right]=1-\alpha
P⎣⎡−tα/2(n−k)≤t∗=SE^(β^j)β^j−βj≤tα/2(n−k)⎦⎤=1−α
解得
P
[
β
^
j
−
t
α
/
2
σ
^
c
j
j
≤
β
j
≤
β
^
j
+
t
α
/
2
σ
^
c
j
j
]
=
1
−
α
P\left[\hat{\beta}_{j}-t_{\alpha / 2} \hat{\sigma} \sqrt{c_{j j}} \leq \beta_{j} \leq \hat{\beta}_{j}+t_{\alpha / 2} \hat{\sigma} \sqrt{c_{j j}}\right]=1-\alpha
P[β^j−tα/2σ^cjj
≤βj≤β^j+tα/2σ^cjj
]=1−α
3. 多元线性回归模型的检验
3.1 拟合优度检验
多重可决系数:与简单线性回归类似,为了说明多元线性回归线对样本观测值的拟合情况,也可以考察在Y的总变差中由多个解释变量作出了解释的那部分变差的比重,即“回归平方和”与“总离差平方和”的比值。在多元回归中这一比值称为多重可决系数,用
R
2
R^2
R2表示
∑
(
Y
i
−
Y
ˉ
)
2
=
∑
(
Y
i
−
Y
^
i
)
2
+
∑
(
Y
^
i
−
Y
ˉ
)
2
\sum\left(Y_{i}-\bar{Y}\right)^{2}=\sum\left(Y_{i}-\hat{Y}_{i}\right)^{2}+\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2}
∑(Yi−Yˉ)2=∑(Yi−Y^i)2+∑(Y^i−Yˉ)2
- ∑ ( Y i − Y ˉ ) 2 \sum\left(Y_{i}-\bar{Y}\right)^{2} ∑(Yi−Yˉ)2称为总离差平方和(TSS),*度为 n − 1 n-1 n−1
- ∑ ( Y i − Y ^ i ) 2 \sum\left(Y_{i}-\hat{Y}_{i}\right)^{2} ∑(Yi−Y^i)2称为残差平方和(RSS),*度为 n − k n-k n−k
- ∑ ( Y ^ i − Y ˉ ) 2 \sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2} ∑(Y^i−Yˉ)2称为回归平方和(ESS),*度为 k − 1 k-1 k−1
定义多重可决系数为
R
2
=
E
S
S
T
S
S
R^{2}=\frac{E S S}{T S S}
R2=TSSESS
或
R
2
=
T
S
S
−
R
S
S
T
S
S
=
1
−
R
S
S
T
S
S
=
1
−
∑
e
i
2
∑
(
Y
i
−
Y
ˉ
)
2
R^{2}=\frac{T S S-R S S}{T S S}=1-\frac{R S S}{T S S}=1-\frac{\sum e_{i}^{2}}{\sum\left(Y_{i}-\bar{Y}\right)^{2}}
R2=TSSTSS−RSS=1−TSSRSS=1−∑(Yi−Yˉ)2∑ei2
多重可决系数是介于 0和 1 之间的一个数,
R
2
R^2
R2越接近1,表明拟合效果越好。多重可决系数可以用矩阵表示
T
S
S
=
Y
′
Y
−
N
Y
ˉ
2
;
E
S
S
=
β
^
X
′
Y
−
N
Y
ˉ
2
T S S=\mathbf{Y}^{\prime} \mathbf{Y}-N \bar{Y}^{2};E S S=\hat{\beta} \mathbf{X}^{\prime} \mathbf{Y}-N \bar{Y}^{2}
TSS=Y′Y−NYˉ2;ESS=β^X′Y−NYˉ2
故
R
2
=
E
S
S
T
S
S
=
β
X
Y
−
N
Y
ˉ
2
Y
′
Y
−
N
Y
ˉ
2
R^{2}=\frac{E S S}{T S S}=\frac{\beta \mathbf{X} \mathbf{Y}-N \bar{Y}^{2}}{\mathbf{Y}^{\prime} \mathbf{Y}-N \bar{Y}^{2}}
R2=TSSESS=Y′Y−NYˉ2βXY−NYˉ2
修正可决系数:
将可决系数的矩阵式展开得到
R
2
=
β
^
2
∑
x
2
i
y
i
+
β
^
3
∑
x
3
i
y
i
+
⋯
+
β
^
k
∑
x
k
i
y
i
∑
y
i
2
R^{2}=\frac{\hat{\beta}_{2} \sum x_{2 i} y_{i}+\hat{\beta}_{3} \sum x_{3 i} y_{i}+\cdots+\hat{\beta}_{k} \sum x_{k i} y_{i}}{\sum y_{i}^{2}}
R2=∑yi2β^2∑x2iyi+β^3∑x3iyi+⋯+β^k∑xkiyi
多重可决系数是模型中解释变量个数的不减函数,也就是说,随着模型中解释变量的增加,多重可决系数
R
2
R^2
R2的值会变大。因此无法判断加入的解释变量对模型的解释性的好坏。可决系数只涉及到变差,没有考虑*度,因此引入*度,
R
ˉ
2
=
1
−
∑
e
i
2
/
(
n
−
k
)
∑
(
Y
i
−
Y
ˉ
)
2
/
(
n
−
1
)
=
1
−
n
−
1
n
−
k
∑
e
i
2
∑
(
Y
i
−
Y
ˉ
)
2
\bar{R}^{2}=1-\frac{\sum e_{i}^{2} /(n-k)}{\sum\left(Y_{i}-\bar{Y}\right)^{2} /(n-1)}=1-\frac{n-1}{n-k} \frac{\sum e_{i}^{2}}{\sum\left(Y_{i}-\bar{Y}\right)^{2}}
Rˉ2=1−∑(Yi−Yˉ)2/(n−1)∑ei2/(n−k)=1−n−kn−1∑(Yi−Yˉ)2∑ei2
修正可决系数与未经修正的多重可决系数之间有如下关系:
R
ˉ
2
=
1
−
(
1
−
R
2
)
n
−
1
n
−
k
\bar{R}^{2}=1-\left(1-R^{2}\right) \frac{n-1}{n-k}
Rˉ2=1−(1−R2)n−kn−1
当
k
>
1
k>1
k>1,
R
ˉ
2
<
R
2
\bar{R}^{2}<R^{2}
Rˉ2<R2.
R
ˉ
2
\bar{R}^{2}
Rˉ2可正可负,当
R
ˉ
2
<
0
\bar{R}^{2} <0
Rˉ2<0,一律记
R
ˉ
2
=
0
\bar{R}^{2} = 0
Rˉ2=0
3.2 回归方程的显著性检验(F-检验)
多元线性回归模型包含多个解释变量,它们同被解释变量之间是否存在显著的线性关系需要通过方程的显著性来体现。对回归模型整体显著性的检验,所检验假设的形式为
H
0
:
β
2
=
β
3
=
⋯
=
β
k
=
0
H
1
:
Σ
β
j
2
≠
0
(
j
=
2
,
3
,
⋯
,
k
)
\begin{aligned} &H_{0}: \beta_{2}=\beta_{3}=\cdots=\beta_{k}=0\\ &H_{1}: \Sigma\beta_{j}^2 \ne 0(j=2,3, \cdots, k) \end{aligned}
H0:β2=β3=⋯=βk=0H1:Σβj2=0(j=2,3,⋯,k)
这种检验是在方差分析的基础上利用F检验进行的,构建
F
F
F统计量
F
=
E
S
S
/
(
k
−
1
)
R
S
S
/
(
n
−
k
)
∼
F
(
k
−
1
,
n
−
k
)
F=\frac{E S S /(k-1)}{R S S /(n-k)} \sim F(k-1, n-k)
F=RSS/(n−k)ESS/(k−1)∼F(k−1,n−k)
即统计量
F
F
F服从*度为
k
−
1
k-1
k−1和
n
−
k
n-k
n−k 的
F
F
F分布。
F
F
F统计量为单边检验,给定显著性水平
α
\alpha
α,通过比较统计值
F
F
F与临界值
F
α
(
k
−
1
,
n
−
k
)
F_{\alpha}(k-1, n-k)
Fα(k−1,n−k)的大小即可判断方程显著性。当
F
>
F
α
(
k
−
1
,
n
−
k
)
F>F_{\alpha}(k-1, n-k)
F>Fα(k−1,n−k)拒绝原假设,反之不拒绝。
在一元线性回归中,由于解释变量只有一个,不存在解释变量联合影响的整体检验问题,也就用不着进行
F
F
F检验。事实上,简单的线性回归模型的
t
t
t分布与
F
F
F分布是等价的
F
=
E
S
S
/
(
2
−
1
)
R
S
S
/
(
n
−
2
)
=
∑
(
Y
^
i
−
Y
ˉ
)
2
∑
e
i
2
/
(
n
−
2
)
=
∑
β
^
1
2
(
X
i
−
X
ˉ
)
2
∑
e
i
2
/
(
n
−
2
)
=
β
^
1
2
∑
x
i
2
σ
2
=
β
1
2
σ
^
2
/
∑
x
i
2
=
(
β
^
1
S
E
^
(
β
^
1
)
)
2
=
t
2
\begin{aligned} F=&\frac{E S S /(2-1)}{R S S /(n-2)}=\frac{\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2}}{\sum e_{i}^{2} /(n-2)}=\frac{\sum \hat{\beta}_{1}^{2}\left(X_{i}-\bar{X}\right)^{2}}{\sum e_{i}^{2} /(n-2)} \\ =&\frac{\hat{\beta}_{1}^{2} \sum x_{i}^{2}}{{\sigma}^{2}}=\frac{\beta_{1}^{2}}{\hat{\sigma}^{2} / \sum x_{i}^{2}}=\left(\frac{\hat{\beta}_{1}}{\hat{S E}\left(\hat{\beta}_{1}\right)}\right)^{2}=t^{2} \end{aligned}
F==RSS/(n−2)ESS/(2−1)=∑ei2/(n−2)∑(Y^i−Yˉ)2=∑ei2/(n−2)∑β^12(Xi−Xˉ)2σ2β^12∑xi2=σ^2/∑xi2β12=⎝⎛SE^(β^1)β^1⎠⎞2=t2
另外,
F
F
F检验与拟合优度也存在内在的联系,容易证明
F
=
n
−
k
k
−
1
⋅
R
2
1
−
R
2
\mathrm{F}=\frac{n-k}{k-1} \cdot \frac{R^{2}}{1-R^{2}}
F=k−1n−k⋅1−R2R2
3.3 回归参数的显著性检验(t-检验)
因为方程的整体线性关系显著并不一定表示每个解释变量对被解释变量的影响都是显著的。因此,还必须分别对每个解释变量进行显著性检验。根据参数估计量的分布性质得到
β
^
j
∼
N
[
β
j
,
Var
(
β
^
j
)
]
\hat{\beta}_{j} \sim N\left[\beta_{j}, \operatorname{Var}\left(\hat{\beta}_{j}\right)\right]
β^j∼N[βj,Var(β^j)]
因此其标准化随机变量服从标准正态分布
Z
=
β
^
j
−
β
j
Var
(
β
^
j
)
∼
N
(
0
,
1
)
Z=\frac{\hat{\beta}_{j}-\beta_{j}}{\sqrt{\operatorname{Var}\left(\hat{\beta}_{j}\right)}} \sim N(0,1)
Z=Var(β^j)
β^j−βj∼N(0,1)
其中
Var
(
β
^
j
)
=
σ
2
C
j
j
\operatorname{Var}\left(\hat{\beta}_{j}\right)=\sigma^{2} C_{j j}
Var(β^j)=σ2Cjj。由于
σ
2
\sigma^2
σ2未知,用利用由
e
i
e_i
ei构造的无偏估计量
σ
^
2
=
∑
e
i
2
/
(
n
−
k
)
\hat{\sigma}^{2}=\sum e_{i}^{2}/(n-k)
σ^2=∑ei2/(n−k)取替代总体随机扰动项的方差
σ
2
\sigma^2
σ2。通过证明,此时
β
^
j
\hat{\beta}_{j}
β^j服从Student分布
t
=
β
j
−
β
j
σ
^
2
C
j
j
=
β
j
−
β
j
σ
^
C
j
j
∼
t
(
n
−
k
)
t=\frac{\beta_{j}-\beta_{j}}{\sqrt{\hat{\sigma}^{2} C_{j j}}}=\frac{\beta_{j}-\beta_{j}}{\hat{\sigma} \sqrt{C_{j j}}} \sim t(n-k)
t=σ^2Cjj
βj−βj=σ^Cjj
βj−βj∼t(n−k)
具体检验过程如下:
提出检验假设:
H
0
:
β
j
=
0
(
j
=
1
,
2
,
⋯
,
k
)
H
1
:
β
j
≠
0
(
j
=
1
,
2
,
⋯
,
k
)
\begin{array}{l} H_{0}: \beta_{j}=0 \quad(j=1,2, \cdots, k) \\ H_{1}: \beta_{j} \neq 0 \quad(j=1,2, \cdots, k) \end{array}
H0:βj=0(j=1,2,⋯,k)H1:βj=0(j=1,2,⋯,k)
计算统计量:
在
H
0
H_0
H0成立条件下
t
=
β
j
−
0
σ
c
j
j
=
β
j
σ
c
j
j
∼
t
(
n
−
k
)
t=\frac{\beta_{j}-0}{\sigma \sqrt{c_{j j}}}=\frac{\beta_{j}}{\sigma \sqrt{c_{j j}}} \sim t(n-k)
t=σcjj
βj−0=σcjj
βj∼t(n−k)
根据样本观测值计算t 统计量的值
t
=
β
^
j
σ
^
C
j
j
t=\frac{\hat{\beta}_{j}}{\hat{\sigma} \sqrt{C_{j j}}}
t=σ^Cjj
β^j
检验
给定显著性水平 α \alpha α ,查*度为 n − k n-k n−k 的 t t t分布表,得临界值 t α / 2 ( n − k ) t_{\alpha / 2}(n-k) tα/2(n−k)。若 ∣ t ∣ ≥ t α / 2 ( n − k ) |t| \geq t_{\alpha / 2}(n-k) ∣t∣≥tα/2(n−k)拒绝原假设。反之不拒绝。
4 多元线性回归模型的预测
4.1 点预测
设多元线性回归模型为
Y
=
X
β
+
U
\mathrm{Y}=\mathrm{X} \beta+\mathrm{U}
Y=Xβ+U
根据观测样本已经估计出参数
β
\beta
β,得到样本回归方程且模型通过检验,即
Y
^
=
X
β
^
\hat{\mathbf{Y}}=\mathbf{X} \hat{\boldsymbol{\beta}}
Y^=Xβ^
把样本以外各个解释变量的值表示为行向量
X
f
=
(
1
,
X
2
f
,
X
3
f
,
⋯
,
X
k
f
)
\mathbf{X}_{\mathrm{f}}=\left(1, X_{2 f}, X_{3 f}, \cdots, X_{k f}\right)
Xf=(1,X2f,X3f,⋯,Xkf)
代入估计的多元线性回归函数
Y
^
f
=
X
f
β
^
=
β
^
1
+
β
^
2
X
2
f
+
β
^
3
X
3
f
+
⋯
+
β
^
k
X
k
f
\begin{aligned} \hat{Y}_{f} &=\mathbf{X}_{\mathrm{f}} \hat{\boldsymbol{\beta}} \\ &=\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 f}+\hat{\beta}_{3} X_{3 f}+\cdots+\hat{\beta}_{k} X_{k f} \end{aligned}
Y^f=Xfβ^=β^1+β^2X2f+β^3X3f+⋯+β^kXkf
两边期望得
E
(
Y
^
f
)
=
E
(
β
^
1
+
β
^
2
X
2
f
+
β
^
3
X
3
f
+
⋯
+
β
^
k
X
k
f
)
=
β
1
+
β
2
X
2
f
+
β
3
X
3
f
+
⋯
+
β
k
X
k
f
=
E
(
Y
f
)
\begin{aligned} E\left(\hat{Y}_{f}\right) &=E\left(\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 f}+\hat{\beta}_{3} X_{3 f}+\cdots+\hat{\beta}_{k} X_{k f}\right) \\ &=\beta_{1}+\beta_{2} X_{2 f}+\beta_{3} X_{3 f}+\cdots+\beta_{k} X_{k f} \\ &=E\left(Y_{f}\right) \end{aligned}
E(Y^f)=E(β^1+β^2X2f+β^3X3f+⋯+β^kXkf)=β1+β2X2f+β3X3f+⋯+βkXkf=E(Yf)
说明
Y
^
f
\hat{Y}_{f}
Y^f是
E
(
Y
f
)
E(Y_f)
E(Yf)的无偏估计,可以用
Y
^
f
\hat{Y}_{f}
Y^f作
E
(
Y
f
)
E(Y_f)
E(Yf)和
Y
f
Y_f
Yf的点预测值
4.2 平均值 E ( Y f ) E(Y_f) E(Yf)的预测
记
Y
^
f
\hat{Y}_{f}
Y^f与
E
(
Y
f
)
E(Y_f)
E(Yf)的偏差为
w
f
w_f
wf,由于
Y
^
f
\hat{Y}_{f}
Y^f服从正态分布,故
w
f
w_f
wf也服从正态分布,其期望为
E
(
w
f
)
=
E
[
Y
f
−
E
(
Y
f
)
]
=
E
(
Y
^
f
)
−
E
(
Y
f
)
=
0
E\left(w_{f}\right)=E\left[Y_{f}-E\left(Y_{f}\right)\right]=E\left(\hat{Y}_{f}\right)-E\left(Y_{f}\right)=0
E(wf)=E[Yf−E(Yf)]=E(Y^f)−E(Yf)=0
其分布满足
w
f
∼
N
[
0
,
σ
2
X
f
(
X
′
X
)
−
1
X
f
′
]
w_{f} \sim N\left[0, \sigma^{2} \mathbf{X}_{\mathrm{f}}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}_{f}^{\prime}\right]
wf∼N[0,σ2Xf(X′X)−1Xf′]
用
σ
^
2
\hat{\sigma}^2
σ^2替代
σ
2
\sigma^2
σ2得到
t
=
w
f
−
E
(
w
f
)
S
E
(
w
f
)
=
Y
^
f
−
E
(
Y
f
)
σ
^
X
f
(
X
′
X
)
−
1
X
f
′
t=\frac{w_{f}-E\left(w_{f}\right)}{S E\left(w_{f}\right)}=\frac{\hat{Y}_{f}-E\left(Y_{f}\right)}{\hat{\sigma} \sqrt{\mathbf{X}_{\mathrm{f}}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}_{\mathrm{f}}^{\prime}}}
t=SE(wf)wf−E(wf)=σ^Xf(X′X)−1Xf′
Y^f−E(Yf)
该统计量
t
t
t 服从*度为
n
−
k
n-k
n−k 的
t
t
t分布。给定显著性水平
α
\alpha
α其预测区间为
Y
f
−
t
α
/
2
σ
X
f
(
X
′
X
)
−
1
X
f
′
≤
E
(
Y
f
)
≤
Y
^
f
+
t
α
/
2
σ
~
X
f
(
X
′
X
)
−
1
X
f
′
Y_{f}-t_{\alpha / 2} \sigma \sqrt{\mathbf{X}_{\mathbf{f}}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}_{f}^{\prime}} \leq E\left(Y_{f}\right) \leq \hat{Y}_{f}+t_{\alpha / 2} \tilde{\sigma} \sqrt{\mathbf{X}_{\mathbf{f}}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}_{\mathbf{f}}^{\prime}}
Yf−tα/2σXf(X′X)−1Xf′
≤E(Yf)≤Y^f+tα/2σ~Xf(X′X)−1Xf′
4.3 个别值 Y f Y_f Yf的区间预测
点预测值
Y
^
f
\hat{Y}_f
Y^f和预测期个别值
Y
f
Y_f
Yf 有关的是残差
e
f
e_f
ef,残差也服从正态分布,其分布为
e
f
∼
N
{
0
,
σ
2
[
1
+
X
f
(
X
′
X
)
−
1
X
f
′
]
}
e_{f} \sim N\left\{0, \sigma^{2}\left[1+\mathbf{X}_{\mathbf{f}}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}_{\mathbf{f}}^{\prime}\right]\right\}
ef∼N{0,σ2[1+Xf(X′X)−1Xf′]}
用
σ
^
2
\hat{\sigma}^2
σ^2替代
σ
2
\sigma^2
σ2得到
t
=
e
f
−
E
(
e
f
)
S
E
(
e
f
)
=
Y
f
−
Y
^
f
σ
^
1
+
X
f
(
X
′
X
)
−
1
X
f
′
t=\frac{e_{f}-E\left(e_{f}\right)}{S E\left(e_{f}\right)}=\frac{Y_{f}-\hat{Y}_{f}}{\hat{\sigma} \sqrt{1+\mathbf{X}_{\mathbf{f}}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}_{\mathbf{f}}^{\prime}}}
t=SE(ef)ef−E(ef)=σ^1+Xf(X′X)−1Xf′
Yf−Y^f
该统计量
t
t
t 服从*度为
n
−
k
n-k
n−k 的
t
t
t分布。给定显著性水平
α
\alpha
α其预测区间为
Y
f
−
t
α
/
2
σ
1
+
X
f
(
X
′
X
)
−
1
X
f
′
≤
Y
f
≤
Y
f
+
t
α
/
2
σ
^
1
+
X
f
(
X
′
X
)
−
1
X
f
′
Y_{f}-t_{\alpha / 2} \sigma \sqrt{1+\mathbf{X}_{\mathbf{f}}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}_{\mathbf{f}}^{\prime}} \leq Y_{f} \leq Y_{f}+t_{\alpha / 2} \hat{\sigma} \sqrt{1+\mathbf{X}_{\mathbf{f}}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}_{\mathbf{f}}^{\prime}}
Yf−tα/2σ1+Xf(X′X)−1Xf′
≤Yf≤Yf+tα/2σ^1+Xf(X′X)−1Xf′
参考文献
庞皓. 计量经济学[M].科学出版社
陈强.高级计量经济学[M].高等教育出版社