上文中《计量笔记(一) | OLS估计量推导》我们通过基本公式和矩阵形式两种方式推导出了OLS估计量的表达式,那么OLS估计量有什么优良性质呢?
在线性模型的经典假设的前提下,OLS估计量有优良的性质,即高斯-马尔可夫定理
经典假设
1、零均值假定
假定随机干扰项
ε
\pmb{\varepsilon}
εεε期望向量或均值向量为零
E
(
ε
)
=
E
[
ε
1
ε
2
⋮
ε
n
]
=
[
E
(
ε
1
)
E
(
ε
2
)
⋮
E
(
ε
n
)
]
=
[
0
0
⋮
0
]
=
0
E(\pmb{\varepsilon})= E \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{bmatrix} =\begin{bmatrix} E(\varepsilon_1) \\ E(\varepsilon_2) \\ \vdots \\ E(\varepsilon_n) \end{bmatrix} =\begin{bmatrix} 0 \\ 0 \\ \vdots\\ 0 \end{bmatrix} =\pmb{0}
E(εεε)=E⎣⎢⎢⎢⎡ε1ε2⋮εn⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡E(ε1)E(ε2)⋮E(εn)⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡00⋮0⎦⎥⎥⎥⎤=000
2、同方差和无序列相关假定
假定随机干扰项 ε \pmb{\varepsilon} εεε不存在序列相关且方差相同
这里推导过程中使用了零均值假定
V
a
r
(
ε
)
=
E
[
(
ε
−
E
(
ε
)
(
ε
−
E
(
ε
)
τ
]
=
E
(
ε
ε
τ
)
=
E
[
(
ε
1
ε
2
⋮
ε
n
)
(
ε
1
ε
2
⋯
ε
n
)
]
=
[
E
(
ε
1
,
ε
1
)
E
(
ε
1
,
ε
2
)
⋯
E
(
ε
1
,
ε
n
)
E
(
ε
2
,
ε
1
)
E
(
ε
2
,
ε
2
)
⋯
E
(
ε
2
,
ε
n
)
⋮
⋮
⋮
⋮
E
(
ε
n
,
ε
1
)
E
(
ε
n
,
ε
2
)
⋯
E
(
ε
n
,
ε
n
)
]
=
[
σ
2
0
⋯
0
0
σ
2
⋯
0
⋮
⋮
⋮
⋮
0
0
⋯
σ
2
]
=
σ
2
I
n
\begin{aligned} Var(\pmb{\varepsilon}) & = E[(\pmb{\varepsilon}-E(\pmb{\varepsilon})(\pmb{\varepsilon}-E(\pmb{\varepsilon})^{\tau}] \\ & = E(\pmb{\varepsilon}\pmb{\varepsilon}^{\tau}) \\ & = E\begin{bmatrix} \begin{pmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{pmatrix} \begin{pmatrix} \varepsilon_1 & \varepsilon_2 & \cdots & \varepsilon_n \end{pmatrix} \end{bmatrix} \\ & = \begin{bmatrix} E(\varepsilon_1,\varepsilon_1) & E(\varepsilon_1,\varepsilon_2) & \cdots & E(\varepsilon_1,\varepsilon_n) \\ E(\varepsilon_2,\varepsilon_1) & E(\varepsilon_2,\varepsilon_2) & \cdots & E(\varepsilon_2,\varepsilon_n) \\ \vdots & \vdots & \vdots & \vdots \\ E(\varepsilon_n,\varepsilon_1) & E(\varepsilon_n,\varepsilon_2) & \cdots & E(\varepsilon_n,\varepsilon_n) \end{bmatrix} \\ & = \begin{bmatrix} \sigma^2 & 0 & \cdots & 0 \\ 0 & \sigma^2 & \cdots & 0 \\ \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & \cdots & \sigma^2 \end{bmatrix} \\ & = \sigma^2\pmb{I}_n \end{aligned}
Var(εεε)=E[(εεε−E(εεε)(εεε−E(εεε)τ]=E(εεεεεετ)=E⎣⎢⎢⎢⎡⎝⎜⎜⎜⎛ε1ε2⋮εn⎠⎟⎟⎟⎞(ε1ε2⋯εn)⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡E(ε1,ε1)E(ε2,ε1)⋮E(εn,ε1)E(ε1,ε2)E(ε2,ε2)⋮E(εn,ε2)⋯⋯⋮⋯E(ε1,εn)E(ε2,εn)⋮E(εn,εn)⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡σ20⋮00σ2⋮0⋯⋯⋮⋯00⋮σ2⎦⎥⎥⎥⎤=σ2IIIn
3、随机干扰项与解释变量相互独立假定
直观理解是干扰项中不包含解释变量的信息
通常假定
X
X
X中的元素
X
2
,
i
,
X
3
,
i
,
⋯
,
X
k
,
i
X_{2,i},X_{3,i},\cdots,X_{k,i}
X2,i,X3,i,⋯,Xk,i为非随机变量,这个假设自动成立
E
(
X
τ
ε
)
=
0
E(X^{\tau}\pmb{\varepsilon})=\pmb{0}
E(Xτεεε)=000
4、无多重共线性假定
各解释变量之间不存在线性关系
即数据矩阵
X
X
X列满秩
R
a
n
k
(
X
)
=
k
Rank(X)=k
Rank(X)=k
5、正态性假定
假定随机干扰项服从正态分布
以下方式表示包括了假定1、假定2、假定5
ε
−
N
(
0
,
σ
2
I
n
)
\pmb{\varepsilon} - N(\pmb{0},\sigma^2\pmb{I}_n)
εεε−N(000,σ2IIIn)
OLS估计量性质
高斯-马尔可夫定理:在线性模型的经典假设下,参数的最小二乘估计量是线性无偏估计量中方差最小的估计量(BLUE估计量)
1、线性特性
参数估计量
β
^
\pmb{\hat{\beta}}
β^β^β^既是因变量观测值
Y
Y
Y的线性组合,也是随机误差项
ε
\pmb{\varepsilon}
εεε的线性组合
β
^
=
(
X
τ
X
)
−
1
X
τ
Y
=
(
X
τ
X
)
−
1
X
τ
(
X
β
+
ε
)
=
(
X
τ
X
)
−
1
X
τ
X
β
+
(
X
τ
X
)
−
1
X
τ
ε
=
β
+
(
X
τ
X
)
−
1
X
τ
ε
\begin{aligned} \pmb{\hat\beta} & = (X^{\tau}X)^{-1}X^{\tau}Y \\ & = (X^{\tau}X)^{-1}X^{\tau}(X \pmb{\beta} + \pmb{\varepsilon}) \\ & = (X^{\tau}X)^{-1}X^{\tau}X \pmb{\beta} + (X^{\tau}X)^{-1}X^{\tau}\pmb{\varepsilon} \\ & = \pmb{\beta} + (X^{\tau}X)^{-1}X^{\tau}\pmb{\varepsilon} \end{aligned}
β^β^β^=(XτX)−1XτY=(XτX)−1Xτ(Xβββ+εεε)=(XτX)−1XτXβββ+(XτX)−1Xτεεε=βββ+(XτX)−1Xτεεε
这里推导未使用任何假定,令
A
=
(
X
τ
X
)
−
1
X
τ
A=(X^{\tau}X)^{-1}X^{\tau}
A=(XτX)−1Xτ,则
β
^
=
A
Y
=
β
+
A
ε
\pmb{\hat\beta} =AY=\pmb{\beta} + A\pmb{\varepsilon}
β^β^β^=AY=βββ+Aεεε
其中,矩阵 A A A由 k k k行 n n n列元素构成, k k k指解释变量个数包括截距项, n n n是指观测值个数
对于某个参数 β ^ k \hat\beta_k β^k是矩阵 A A A的 k k k行元素构成的行向量与因变量观测值 Y Y Y的向量积
线性特性是确定参数估计量的分布性质和进行统计推断的重要基础
2、无偏性
参数估计量
β
^
\pmb{\hat{\beta}}
β^β^β^的期望等于总体参数
E
(
β
^
)
=
E
(
β
+
A
ε
)
=
E
(
β
)
+
A
E
(
ε
)
=
β
\begin{aligned} E(\pmb{\hat\beta}) & = E(\pmb{\beta} + A\pmb{\varepsilon}) \\ & = E(\pmb{\beta}) + AE(\pmb{\varepsilon}) \\ & = \pmb{\beta} \end{aligned}
E(β^β^β^)=E(βββ+Aεεε)=E(βββ)+AE(εεε)=βββ
这里用到了线性特性、假定1、假定3
3、方差最小性
OLS估计量的有效性,也称为“最小方差性”,即在模型参数的所有线性无偏估计量中OLS估计的方差最小
先求OLS估计量的协方差矩阵
V
a
r
(
β
^
)
=
E
[
(
β
^
−
E
(
β
^
)
)
(
β
^
−
E
(
β
^
)
)
τ
]
=
E
[
(
β
^
−
β
)
(
β
^
−
β
)
τ
]
=
E
[
(
A
ε
)
(
A
ε
)
τ
]
=
E
[
A
ε
ε
τ
A
τ
]
=
A
E
(
ε
ε
τ
)
A
τ
=
A
σ
2
I
n
A
τ
=
σ
2
A
A
τ
=
σ
2
(
X
τ
X
)
−
1
X
τ
X
(
X
τ
X
)
−
1
=
σ
2
(
X
τ
X
)
−
1
\begin{aligned} Var(\pmb{\hat\beta}) & = E[(\pmb{\hat\beta}-E(\pmb{\hat\beta}))(\pmb{\hat\beta}-E(\pmb{\hat\beta}))^{\tau}] \\ & = E[(\pmb{\hat\beta}-\pmb{\beta})(\pmb{\hat\beta}-\pmb{\beta})^{\tau}] \\ & = E[(A\pmb{\varepsilon})(A\pmb{\varepsilon})^{\tau}] \\ & = E[A\pmb{\varepsilon}\pmb{\varepsilon}^{\tau}A^{\tau}] \\ & = AE(\pmb{\varepsilon}\pmb{\varepsilon}^{\tau})A^{\tau} \\ & = A\sigma^2\pmb{I}_nA^{\tau} \\ & = \sigma^2AA^{\tau} \\ & = \sigma^2(X^{\tau}X)^{-1}X^{\tau}X(X^{\tau}X)^{-1} \\ & = \sigma^2(X^{\tau}X)^{-1} \end{aligned}
Var(β^β^β^)=E[(β^β^β^−E(β^β^β^))(β^β^β^−E(β^β^β^))τ]=E[(β^β^β^−βββ)(β^β^β^−βββ)τ]=E[(Aεεε)(Aεεε)τ]=E[AεεεεεετAτ]=AE(εεεεεετ)Aτ=Aσ2IIInAτ=σ2AAτ=σ2(XτX)−1XτX(XτX)−1=σ2(XτX)−1
这里因为
(
X
τ
X
)
−
1
(X^{\tau}X)^{-1}
(XτX)−1是对称矩阵,所以它的转置还是它本身,所以
A
τ
=
X
(
X
τ
X
)
−
1
A^{\tau}=X(X^{\tau}X)^{-1}
Aτ=X(XτX)−1
这里用到无偏性、线性特性、假定3、假定2
接下来就要证明上述OLS估计量的协方差矩阵是所有线性无偏估计量的协方差矩阵中是最小的(省略)
参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^β^β^的分布形式
我们在证明OLS估计量具有最佳线性无偏估计量性质的过程中仅使用了假定1、假定2、假定3,未使用到假定4和假定5,并且在证明过程中,我们也知道了OLS估计量的均值和方差,如果我们进一步知道OLS估计量分布形式,就可以进行统计推断了
根据假定5,可以推导出参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^β^β^也是服从正态分布的
根据线性特性 β ^ = A Y = β + A ε \pmb{\hat\beta} =AY=\pmb{\beta} + A\pmb{\varepsilon} β^β^β^=AY=βββ+Aεεε,说明参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^β^β^是随机误差项 ε \pmb{\varepsilon} εεε的线性组合,而根据假定5随机误差项 ε \pmb{\varepsilon} εεε服从正态分布,所以参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^β^β^也服从正态分布
因为
E
(
β
^
)
=
β
E(\pmb{\hat\beta})=\pmb{\beta}
E(β^β^β^)=βββ,
V
a
r
(
β
^
)
=
σ
2
(
X
τ
X
)
−
1
Var(\pmb{\hat\beta}) =\sigma^2(X^{\tau}X)^{-1}
Var(β^β^β^)=σ2(XτX)−1,所以参数的OLS估计量
β
^
\pmb{\hat{\beta}}
β^β^β^正态分布形式为
β
^
−
N
(
β
,
σ
2
(
X
τ
X
)
−
1
)
\pmb{\hat\beta}-N(\pmb{\beta},\sigma^2(X^{\tau}X)^{-1})
β^β^β^−N(βββ,σ2(XτX)−1)
对于具体的某个估计量
b
j
^
\hat{b_j}
bj^的分布形式为
b
j
^
−
N
(
b
j
,
σ
2
(
(
X
τ
X
)
−
1
)
j
j
)
\hat{b_j}-N(b_j,\sigma^2((X^{\tau}X)^{-1})_{jj})
bj^−N(bj,σ2((XτX)−1)jj)
随机误差项方差的估计
前文推导过程中,我们求出了参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^β^β^的具体数值, β ^ = ( X τ X ) − 1 X τ Y \pmb{\hat\beta} = (X^{\tau}X)^{-1}X^{\tau}Y β^β^β^=(XτX)−1XτY,我们求出了参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^β^β^的期望和方差, E ( β ^ ) = β E(\pmb{\hat\beta})=\pmb{\beta} E(β^β^β^)=βββ, V a r ( β ^ ) = σ 2 ( X τ X ) − 1 Var(\pmb{\hat\beta}) =\sigma^2(X^{\tau}X)^{-1} Var(β^β^β^)=σ2(XτX)−1,我们甚至求出了参数的OLS估计量 β ^ \pmb{\hat{\beta}} β^β^β^的分布形式, β ^ − N ( β , σ 2 ( X τ X ) − 1 ) \pmb{\hat\beta}-N(\pmb{\beta},\sigma^2(X^{\tau}X)^{-1}) β^β^β^−N(βββ,σ2(XτX)−1)
但是,不难发现,上述表达式中,始终有个随机误差项的方差 σ 2 \sigma^2 σ2的取值我们不得而知,事实上我们也无法计算,因为我们不知道总体回归模型和总体样本是如何
但是,我们可以对
σ
2
\sigma^2
σ2进行估计,若计
σ
^
2
=
∑
e
i
2
n
−
k
\hat{\sigma}^2= \frac{\sum{e_i^2}}{n-k}
σ^2=n−k∑ei2
可以证明,
E
(
σ
^
2
)
=
σ
2
E(\hat{\sigma}^2)=\sigma^2
E(σ^2)=σ2,证明省略
那么,对于具体的某个估计量 b j ^ \hat{b_j} bj^的分布形式为 b j ^ − N ( b j , σ ^ 2 ( ( X τ X ) − 1 ) j j ) \hat{b_j}-N(b_j,\hat\sigma^2((X^{\tau}X)^{-1})_{jj}) bj^−N(bj,σ^2((XτX)−1)jj)
欢迎关注微信公众号:乌龙PySta (ID: wylcfy2014)
不定期推送python和stata笔记,经管文本分析与机器学习