如何选择正确的因变量(控制变量)，让你的计量模型不再肮脏

2024-03-20 14:26:22

凡是搞计量经济的，都关注这个号了

投稿：econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

前些日，咱们引荐了①“实证研究中用到的200篇文章, 社科学者常备toolkit”、②实证文章写作常用到的50篇名家经验帖, 学者必读系列、③过去10年AER上关于中国主题的Articles专辑、④AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向，⑤2020年中文Top期刊重点选题方向, 写论文就写这些。后面，咱们又引荐了①使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑！，②这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授，③Python, Stata, R软件史上最全快捷键合辑！，④关于(模糊)断点回归设计的100篇精选Articles专辑！，⑤关于双重差分法DID的32篇精选Articles专辑！，⑥关于合成控制法SCM的33篇精选Articles专辑！⑦最近80篇关于中国国际贸易领域papers合辑！，⑧最近70篇关于中国环境生态的经济学papers合辑！⑨使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑！⑩最近50篇使用系统GMM开展实证研究的papers合辑！这些文章受到了各位学者的欢迎和热议，博士生导师纷纷将其推荐给学生参阅。

正文
注：下面的“预测变量”一词在英文中为predictor，就是我们平常说的自变量。标题应该是选择正确的自变量（控制变量）

即使只有少数预测变量可供选择，也有无数种方法可以指定回归方程右侧的变量。如何决定要包含哪些控制变量？选择变量时最重要的考虑因素是其理论相关性（theoretical relevance）。当你在没有合理理论的基础上增加变量（也被称为“回归比你想的还要快”）时，很多事情都会出错。当然，“听起来合理”的定义有点模糊，你可能剔除掉太多的变量同样会造成伤害。

下面这几点阐述了模型识别中涉及的权衡因素。

1.厨房水槽（Kitchen sink）
毫无疑问，您会遇到包含数十个变量的“厨房水槽（Kitchen sink）”回归。这通常表明研究者已经脑死亡，往模型里扔进了所有可用的预测变量，而不考虑他们实际上有什么作用。如果数据集中有成千上万的预测变量，谁知道研究者会做什么呢？（更不用说指数形式和交互项的可能性了！）

一点点试错是完全可以的。毕竟，有时一个问题是如此新，以至于我们没有任何理论可以指导我们建模。或者有时我们知道我们想要某种类型的变量（例如，某种程度的教育），但我们不知道衡量它的最好方法（例如，“受过大学教育的人口百分比”与“拥有高等学历的人口百分比”。）。即使如此，一定要尽量抵制诱惑，不要把你所掌握的每一个变量都包括进去。厨房水槽回归会降低回归精度，甚至会产生误导性的结果。

我使用垃圾变量（junk variable）这个术语来描述回归中包含的一个变量——只因为它在你的数据集中，而不是因为它的理论相关性。我们知道不让垃圾变量在回归中的一个实际原因：添加任意变量会消耗宝贵的*度（df）。这会降低所有有效预测变量估计值的精度（即增加标准误差）。这种“不想要的不精确性”效应在你没有大量观察值的情况下尤其明显。

以下是一些有价值的经验法则：

1) Use no more than one predictor for every 5 observations if you have a good predictive model (most predictors significant).

2) You no more than one predictor for every 10 observations if you have a weaker model (few predictors significant) or you are experimenting with a lot of junk variables.

3) You can cut yourself some slack if you have categorical variables. Treat each included category as a half of a normal predictor.

有更多的理由不让垃圾变量进入你的回归方程

当你引入垃圾变量时，即使你有足够的df来获得重要发现，至少还有三个潜在的问题：

1）由于随机性，垃圾变量可能统计显著。如果你引入10个垃圾变量，有40%的几率至少有一个是有显著的，不过这是由于随机性。如果有人试图用不同的数据重现你的发现，他们通常无法重现你的垃圾结果。你的粗制滥造的方法就会暴露给所有人看。

2）与另一个有效预测变量相关的垃圾变量，也可能与方程左边的变量有很强的相关性。这可能会使有效的预测变量变得不再显著，从而你可能会将其从模型中剔除。（这与多重共线性有关）。厨房水槽越大，发生这种情况的可能性就越大。

3）向模型中添加一些变量可能会影响你对其他变量系数的解释。当一个方程右边的变量本身是另一个变量的函数时，就会发生上述情况。这个问题不像（1）和（2）那么严重，但是需要你在描述你的发现时格外小心。

当方程右边的变量是彼此的函数时，会发生什么情况，下面这是一个例子：

2.变动（action）
当你进行回归分析时，你希望数据中有足够的信息精确地计算出X的变化是如何影响Y的。为了直观地掌握数据中有多少信息，把X和Y的每个观察值都看作是一个实验。如果X在一个实验和下一个实验之间变化不大，那么数据中就没有太多的信息，因此很难精确地确定X的变化对Y的影响。

因此，好的预测变量有行动——它们在观察值之间变动很多。您应该始终检查每个关键预测值的变动，例如通过计算其范围和标准误差。您还应该绘制每个关键预测值和因变量的二维图。预测值的极值可能会影响回归。当预测值从最低值移动到最高值时，Y变化很大吗？此图应预示回归结果（记住，简单的双向图掩盖了控制变量的影响）。

变动与多重共线性

现在是解决过度夸大的多重共线性问题的时候了。假设你有两个预测变量，X和Z，以及一个因变量Y。当你检查数据时，你会发现X，Y和Z都在一起移动。（也就是说，它们有很高的相关性）你现在很确定X或Z都会影响Y，也许两者都会。但你不能确定哪个更重要。不幸的是，计算机可能也无法解决这个问题。这是多重共线性。

让我们用变动的概念来更好地理解多重共线性。如果X和Z高度相关，那么它们的“实验”就不是独立的。这使得很难确定是哪一个引起了Y中的相关运动。因此，如果将两者都包括在回归中，计算机将报告其估计系数周围的大的标准误差，因为它无法确定哪个预测变量真正重要。

一个直接的启示是，有可能得到一个高R2，但没有任何重要的预测作用！把X和Z加在一起可以很好地预测Y，但是计算机不能确定哪一个才是真正的影响因素，所以R2很高，尽管显著性水平很低。在其他情况下，计算机可能会报告一个相关预测变量上的大正系数和另一个相关预测变量上的大负系数。当两个变量基本相同，并且计算机使用它们之间的细微差异来拟合一些异常值时，这种“符号翻转”经常出现。

多重共线性的迹象

尽管没有确定的多重共线性检验，但仍有一些情况值得我们注意：

1）您发现两个或多个相关变量在回归中联合进入模型时具有不显著的系数，但每次只有一个进入模型时，每个变量都具有显著的系数。

2）一个F检验表明，两个相关变量增加了模型的预测能力，尽管两者都没有显著的系数。

3）变量单独进入模型时具有相同的符号，但同时进入模型时具有相反的符号。

4）在运行回归之后，您可以让计算“方差通胀因子VIF“。

如果存在问题的多重共线性，则有以下几种选择：

1）保留所有变量；记住你的系数是无偏的，但不精确。你的模型仍然具有很强的预测性。

2）抛弃其中一个有问题的变量。

3）创建一个综合得分——一个单一的衡量指标，捕捉相关变量中的信息。

3. 遗漏变量问题
在选择方程右边的变量时，有太多的原因需要精简的模型，以至于你可能会试图只使用一个预测变量来运行回归。现在是时候把事情放在正确的角度，记住为什么我们要添加控制变量。

1）它提高了模型的预测能力，并在此过程中提高了估计的精度。

2）排除相关变量可能会使系数偏向模型中包括的变量。换句话说，由于遗漏变量偏差，计算机报告的值系统地高于或低于实际值。

处理遗漏变量偏差

似乎遗漏变量偏差会困扰每一次回归。毕竟，不可能得到所有影响因变量的因素的数据。在某种程度上这是真的，这就是为什么我们总是在回归中考虑可能的偏差。幸运的是，遗漏变量偏差通常是一个可控的问题，原因有三：

1）仅当遗漏的变量与模型中包括的变量相关且本身很重要时，才会导致有偏系数。如果这两个条件都不能成立，就没有偏差。

2）即使存在遗漏变量问题，也可以确定偏差的方向。这将允许我们声明所报告的系数是实际效果的上界或下界。

3）对遗漏变量偏差的思考，迫使我们首先要认真识别正确的经济模型，做好变量选择工作。

4. 内生性偏差
如果方程右边的变量与原模型中的误差相关，则称其为内生变量。一般来说，我们很难解释内生预测变量的系数。他们可能有偏差和/或不可能得出因果关系的结论。

而就内生性问题及其解决方法，咱们为各位学者引荐了很多文章，例如：看完*期刊文章后, 整理了内生性处理小册子；1.“内生性” 到底是什么鬼? New Yorker告诉你；2.Heckman两步法的内生性问题(IV-Heckman)；3.IV和GMM相关估计步骤，内生性、异方差性等检验方法；4.最全估计方法，解决遗漏变量偏差，内生性，混淆变量和相关问题；5.毛咕噜论文中一些有趣的工具变量！；6.非线性面板模型中内生性解决方案；7.内生性处理的秘密武器－工具变量估计；8.内生性处理方法与进展；9.内生性问题和倾向得分匹配；10.你的内生性解决方式out, ERM独领风骚；11.工具变量IV必读文章20篇, 因果识别就靠他了；12.面板数据是怎样处理内生性的；13.计量分析中的内生性问题综述；14.工具变量IV与内生性处理的解读；15.一份改变实证研究的内生性处理思维导图；16.Top期刊里不同来源内生性处理方法；17.面板数据中heckman方法和程序(xtheckman)；18.控制函数法CF, 处理内生性的广义方法；19.二值选择模型内生性检验方法；20.2SRI还是2SPS, 内生性问题的二阶段CF法实现；21.内生变量的交互项如何寻工具变量；22.工具变量精辟解释, 保证你一辈子都忘不了。除此之外，还有很多与此相关的文章，因此建议学者根据自身需要搜索相关内容。

5. 回归建模的一种合理方法
以下方法平衡了”厨房水槽“和”遗漏变量偏差“问题。你可能做得比遵循以下步骤更糟：

1）总是从一组具有理论相关性的“核心”预测变量开始，以及任何你特别感兴趣的预测变量开始。此时，您可能会估计一个“快速而肮脏”的OLS模型。

2）最终确定模型构建问题（例如，对数与线性）。

3）添加您认为可能相关的其他预测变量。您可以一次添加一个或一次添加一个“类别”。检查你最初发现的稳健性。

4）添加预测变量时，应保留模型中的所有原始预测变量，即使它们不显著。记住，被遗漏变量偏差会导致显著的预测值看起来不重要。通过增加更多的变量，你的关键预测因素可能变得重要。

5）在这一点上，你应该知道你稳健发现。这是你研究的主要目标。

6）如果你坚持要生成一个“最终模型”，那么你应该删除那些没有统计显著意义的额外预测变量。

7）如果核心预测变量仍然不显著并且你需要更多*度，也可以删除它们。

6. 组别变量问题
许多预测变量可以整齐地分为几个组：季节、竞争对手的价格、消费者人口统计、50个州。您通常希望确定一组预测变量是否应该放在回归方程这种。（“季节性重要吗？“竞争对手的价格重要吗？分析员经常单独检查一组中每个预测变量的系数，并保留那些重要的系数。这是一个错误，我现在将解释。

检验一组变量的正确方法是进行”偏F检验“，也称为Chow检验，它比较模型在考虑和不考虑所有变量的情况下的预测能力。如果变量组没有共同增加预测能力，则不能拒绝这一组别无关的原假设。
Stata能为我们做F检验。假设您想知道变量X2和X3是否应该添加到包含变量X1的模型中。简单键入：


regress Y X1 X2 X3
test X2 X3

拓展性阅读

就内生性问题及其解决方法，咱们为各位学者引荐了很多文章，例如：看完*期刊文章后, 整理了内生性处理小册子；1.“内生性” 到底是什么鬼? New Yorker告诉你；2.Heckman两步法的内生性问题(IV-Heckman)；3.IV和GMM相关估计步骤，内生性、异方差性等检验方法；4.最全估计方法，解决遗漏变量偏差，内生性，混淆变量和相关问题；5.毛咕噜论文中一些有趣的工具变量！；6.非线性面板模型中内生性解决方案；7.内生性处理的秘密武器－工具变量估计；8.内生性处理方法与进展；9.内生性问题和倾向得分匹配；10.你的内生性解决方式out, ERM独领风骚；11.工具变量IV必读文章20篇, 因果识别就靠他了；12.面板数据是怎样处理内生性的；13.计量分析中的内生性问题综述；14.工具变量IV与内生性处理的解读；15.一份改变实证研究的内生性处理思维导图；16.Top期刊里不同来源内生性处理方法；17.面板数据中heckman方法和程序(xtheckman)；18.控制函数法CF, 处理内生性的广义方法；19.二值选择模型内生性检验方法；20.2SRI还是2SPS, 内生性问题的二阶段CF法实现；21.内生变量的交互项如何寻工具变量；22.工具变量精辟解释, 保证你一辈子都忘不了。除此之外，还有很多与此相关的文章，因此建议学者根据自身需要搜索相关内容。

之前，咱们小组引荐了1.DID运用经典文献，强制性许可:来自对敌贸易法的证据，2.连续DID经典文献, 土豆成就了旧世界的文明，3.截面数据DID讲述, 截面做双重差分政策评估的范式，4.RDD经典文献, RDD模型有效性稳健性检验，5.事件研究法用于DID的经典文献"环境规制"论文数据和程序，6.广义DID方法运用得非常经典的JHE文献，7.DID的经典文献"强制许可"论文数据和do程序，8.传销活动对经济发展影响, AER上截面数据分析经典文，9.多期DID的经典文献big bad banks数据和do文件，10.因果推断IV方法经典文献，究竟是制度还是人力资本促进了经济的发展？，11.AER上因果关系确立, 敏感性检验, 异质性分析和跨数据使用经典文章，12.第二篇因果推断经典，工作中断对工人随后生产效率的影响？，13.密度经济学:来自柏林墙的自然实验, 最佳Econometrica论文，14.AER上以DID, DDD为识别策略的劳动和健康经济学，15.一个使用截面数据的政策评估方法, 也可以发AER，16.多期DID模型的经典文献，big bad banks讲解","，17.多期DID的经典文献big bad banks数据和do文件，18.非线性DID, 双重变换模型CIC, 分位数DID，受到博士生导师普遍欢迎，并分享给其指导的学生学习。

下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。
2年，计量经济圈公众号近1000篇文章，

Econometrics Circle

码农公寓

相关文章