GLMM(generalized linear mixed model)广义线性混合模型中的关键是“mixed”,“mixed”是区别于一般的GLM(generalized linear model)的显著体现。
一般的GLM指的就是要求因变量符合“指数分布族”即可。关于GLM的详细解释可以在stata的help文档中看到,GLM的两个核心是 Family 和 Link。其中Family指的就是因变量的分布函数,常见的几种因变量的分布如下:
连续变量——Gaussian分布/正态分布
binary变量(0,1)——二项分布(一个变量0,1分布是属于伯努利分布,多个伯努利就是二项分布)
count/rate变量(1,2,3…计数分布)——possion分布
其中link指的是将因变量进行转化使模型呈线性分布的方法,我们经常使用的logit回归的link就是logit link,它的方法是对因变量进行如下变换:ln(P(Y=1)/P(Y=0))=aX+b。除此之外,还有其他多种不同的回归就是不同的Family和link的组合,logistic回归只是GLM回归的一种特殊情况,这就是为什么GLM被称为广义的线性模型,是所有线性模型的最初模样。
回到GLMM模型,它的特殊之处在于它的“mixed”,这个”mixed"本质上说的是效应的混合,因为回归模型中同时有固定效应和随机效应的存在,固定效应说的是自变量每次变化一个单位对因变量的影响是一样的,但是随机效应说的是自变量变化一个单位对因变量的影响是不固定的。而这种情况时有发生,如果在一个模型里面,多个不同的自变量对因变量的影响同时存在这两种效应,我们使用到的就是GLMM模型。