传统线性模型的假设之一是因变量之间相互独立,并且如果自变量之间不独立,会产生共线性,对于模型的精度也是会有影响的。虽然完全独立的两个变量是不存在的,但是我们在分析中也可以使用一些手段尽量减小这些问题产生的影响,例如采用随机抽样减小因变量间的相关性,使其满足假设;采用岭回归、逐步回归、主成分回归等解决共线性的问题。以上解决方法做都会损失数据信息,而且似乎都是采取一种回避问题的态度而非解决问题,当碰到更复杂的情况例如因变量和自变量相互影响时,单靠回避是无法得到正确的分析结果的,那么有没有更好的直接解决问题的方法呢?接下来介绍的
两阶段最小二乘法和路径分析就是解决此类问题比较好的方法。当因变量与自变量存在相互作用时,会直接违反传统回归模型的基本假设,也就无法再使用普通最小
二乘法,解决此类问题的方法是:首先确定和因变量有相互作用的自变量,将这些自变量作为因变量拟合回归方程,该方程中的自变量和原始因变量无关,用这些自变量的估计值代替原值进行分析,由于估计值是根据与原始因变量无关的变量预测而来,因此可以认为这些估计值也和因变量的作用是单向的,从而避免了相互作用的影响,整个过程用了两次最小二乘法,因此成为两阶段最小二乘法。当然,还有三阶或多阶最小二乘法。
两阶段最小二乘法在SPSS中有一个单独的过程:
分析—回归—两阶段最小二乘法
我们通过一个例子来说明其用法
现在想研究受教育年限、种族、年龄对收入的影响,表面上看,可以采用以教育年限、种族、年龄为自变量,收入为因变量的多重线性回归进行分析,但是根据常识,教育年限和收入存在双向的影响,这使得线性模型的基本假定被否定,分析结果可能不正确。此时,我们可以采用二阶段最小二乘法进行分析,为此,我们找到了父亲和母亲的受教育年限这两个变量,以此来估计原始变量的受教育年限,我们把这种在第一阶段用于预测自变量的变量称为工具变量,而被预测的自变量,称为内生变量。