模型介绍
混合线性模型: 是即包括固定因子,又包括随机因子的模型。 混合线性模型被广泛应用于物理、生物和社会科学。尤其是一些重复测量的数据及面板数据。混合线性模型比较突出的特点是可以非常优秀的处理缺失值,相对于传统的方差分析, 它有更广泛的使用范围,也更优秀。
发展历程
Ronald Fisher 最早提出随机因子模型来研究亲属间性状的相关性,1950年 Charles Roy Henderson 提出了最佳线性无偏估计(BLUE),这是针对于固定因子的评估。对随机因子的评估是最佳线性无偏预测(BLUP)。随后,混合模型在统计学研究中成了一个热门领域,相关的模型不断提出, 比如非线性混合模型,极大似然发估计,混合模型中的缺失值处理,贝叶斯估计混合模型等。混合模型被应用在许多领域,特别是观测值之间是有关联的重复测量数据,比如动植物育种,医学,也被应用在其它领域,比如棒球,工业统计等。
定义
以矩阵定义混合模型,可以写成:
y = X β + Z μ + ϵ y = X\beta + Z\mu + \epsilon y=Xβ+Zμ+ϵ
这里
y
y
y是观测值的向量,它的平均值可以表示为
E
(
y
)
=
X
β
E(y) = X\beta
E(y)=Xβ
β
\beta
β 是固定因子的效应值
μ
\mu
μ 是随机因子的效应值,它的平均值为
E
(
μ
)
=
0
E(\mu)=0
E(μ)=0,.它的方差为
v
a
r
(
μ
)
=
G
var(\mu) = G
var(μ)=G
ϵ
\epsilon
ϵ是残差的向量矩阵,它的平均值为
E
(
ϵ
)
=
0
E(\epsilon)=0
E(ϵ)=0,.它的方差为
v
a
r
(
ϵ
)
=
R
var(\epsilon) = R
var(ϵ)=R
X
X
X和
Z
Z
Z分别是是
β
\beta
β和
μ
\mu
μ的矩阵
计算
混合模型的假定为
μ
N
(
0
,
G
)
,
ϵ
N
(
0
,
R
)
\mu ~ N(0,G), \epsilon~ N(0,R)
μ N(0,G),ϵ N(0,R), 其中
C
o
v
(
μ
,
ϵ
)
=
0
Cov(\mu, \epsilon) = 0
Cov(μ,ϵ)=0,即两者的协方差为0.
Henderson的混合线性公式:
[ X ′ X X ′ Z Z ′ X Z ′ Z + A − 1 K ] [ μ ^ α ^ ] = [ X ′ Y Z ′ Y ] \begin{bmatrix} X'X & X'Z \\ Z'X & Z'Z + A^{-1}K \end{bmatrix} \begin{bmatrix} \widehat{\mu} \\ \widehat{\alpha} \end{bmatrix}= \begin{bmatrix} X'Y \\ Z'Y \end{bmatrix} [X′XZ′XX′ZZ′Z+A−1K][μ α ]=[X′YZ′Y]
求解混合线性模型, β ^ \hat{\beta} β^和 μ ^ \hat{\mu} μ^的估计值是BLUE值和BLUP值, 求解方程组的前提是 K K K已知, 即而K的公式为: K = σ e 2 σ a 2 K=\frac{\sigma_e^2}{\sigma_a^2} K=σa2σe2, 即残差的方差组分 σ e 2 \sigma_e^2 σe2和随机因子的方差组分 σ a 2 \sigma_a^2 σa2已知.
评估方差组分的方法有很多种, 有EM 方法, REML方法, Beyes方法等, 现在R种的包(nlme, lme4, MCMCglmm,asreml)对这些方法都有应用.
如果您对于数据分析,对于软件操作,对于数据整理,对于结果理解,有任何问题,欢迎联系我。