原文链接:https://www.lianxh.cn/news/67e04ad54052c.html
目录
1. 问题背景
OLS 有一个经典的假设:解释变量与随机误差项不相关,即 。如果存在解释变量违背了这个假设,则估计出的参数是有偏的,也是不一致的。
工具变量 (IV) 法为解决「内生解释变量」问题提供了一种可行的方法。为此,我们需要找到满足以下条件的「外生解释变量 ()」:
- 与内生解释变量相关,即 ;
- 与随机误差项不相关,即 。
根据「内生解释变量」与「工具变量」间的数量关系,又可以分为以下几种情况:
- 不可识别 (unidentified):工具变量数小于内生解释变量数;
- 恰好识别 (just or exactly indentified):工具变量数等于内生解释变量数;
- 过度识别 (overindentified):工具变量数大于内生解释变量数。
在「恰好识别」的情况下,我们可以估计 ,而在「过度识别」的情况下,则需要通过两阶段最小二乘法 (Two Stage Least Square,2SLS 或 TSLS) 估计 。当然在「恰好识别」的情况下,我们也可以用 2SLS 进行估计。但是,在「不可识别」情况下,以上方法失效。2SLS 主要通过以下两阶段实现:
- 第一阶段,用内生解释变量对工具变量回归;
- 第二阶段,用被解释变量对第一阶段回归的拟合值回归。
值得注意, 2SLS 只有在「同方差」的情况下才是最优效率的,而在「过度识别」和「异方差」的情况下,广义矩估计 (Generalized Method of Moments, GMM) 才是最有效率的。关于 GMM 介绍详见:「Stata:GMM 简介及实现范例」和「GMM 简介与 Stata 实现」。
在使用工具变量之前,我们仍需进行若干检验:
- 解释变量内生性的检验;
- 弱工具变量检验;
- 过度识别检验。
在「恰好识别」的情况下,我们无法检验工具变量的外生性,只能进行「定性讨论或依赖专家意见」,详见「IV-估计:工具变量不外生时也可以用!」。因此,我们重点关注「过度识别检验」的方法和在 Stata 中实现。
原文链接:https://www.lianxh.cn/news/67e04ad54052c.html