双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

可有偿投稿计量经济圈,计量相关则可

邮箱:econometrics666@sina.cn

所有计量经济圈方法论丛的do文件都放在社群里,可以直接取出使用运行,也欢迎到研究小组交流访问.

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

今天,我们"微观计量研究小组"将为计量经济圈的圈友引荐“双栏模型”(double hurdle model)。这个模型实际上是“托宾模型”(Tobit model)的一般化,因为Tobit是双栏模型的一个特例。

我们在计量经济学中经常碰到归并数据(censored data),即这个因变量的每个观测点都有数据,只不过我们把超过一些临界值的数据归并到这个临界值而已。比如,对于一个人的体重观测数据,我们在低于250KG的那些区间里都列出实际观测值,而对于超过250KG的那些观测值统一定为250KG,这就是所谓的右端归并。又比如,我们想要记录一个人每周工作小时数,那么这个变量的观测值最小为0,所以这就造成了一个左端归并。倘若我们又规定把这个人每周工作小时数超过40的统一记录为40,那这个变量就出现了双向归并,这就是所谓的“Two-limit tobit”。

咱们经常用到的是Tobit模型,在那个每周工作小时数的模型里,我们需要先预测这个人是不是工作的,用一个简单的logit或者probit就可以完成;这之后,我们就需要对那些工作的个体(即工作小时数大于0)再通过一个截断正太分布(Truncated normal distribution)去估计他们的具体工作小时数。然而,Tobit模型最大的缺陷在于,他在这两个部分的模型中(probit和truncreg)中使用的是完全相同的参数。这就暗含着,不干工作的人与干工作的人没有什么不同,不然,怎么能够使用一样的解释变量到两个模型里。Tobit的似然函数为下式所示:

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

为了让Tobit模型变量更加灵活一些,Cragg等人就构建了“双栏模型”,也就是我们现在熟知的“Cragg hurdle model”。这个模型允许不同的解释变量出现在probit这个二值选择模型和之后的截断回归模型。这相当于,我们用一系列变量A(#, #)去估计这个人是否干工作;而对于干工作的这一部分人,我们又用另一系列变量B(#, #)去估计这个人到底每周干多长小时数。这样的灵活性安排有一个假设,即这两个模型估计后留下来的误差是不相关的,即暗含干工作的人是不同于不干工作的人。双栏模型的似然函数如下:

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

在这里,我们需要注意把他与Heckman自选择模型区分开,尽管他们都有一个选择方程(selection equation)和后面的线性回归方程。注:我们之前讲过Extended regression model,在那个框架里,允许离散变量里出现自选择行为,即Heckman自选择行为也可以运用到离散变量里。Heckman模型是用来处理样本选择偏差带来的内生性问题,即因变量出现缺失值(missing value)的情况是由于个体的自选择行为。比如,我们去发放调查问卷询问关于个体锻炼情况和身体健康状况。可是,我们并不能收回所有的调查问卷,并且那些没有收回的问卷是这个个体根据自身健康状况而做出的选择行为,即他们可能由于自身健康状况差而不愿意把问卷交回来。

双栏模型能够用于以下个体决策行为中:给慈善机构捐款,烟酒消费量,志愿服务时间和对耐用消费品的需求。如果你不确定是不是应该使用双栏模型,那你可以在心中问自己一个问题:“是不是有些人不捐款,不买烟酒,不志愿服务,不购买耐用消费品?”这里还是一些特殊例子,都属于左端归并。上面提及到,数据还存在右端归并,因此在实际研究过程中我们需要把"归并"一词理解好。

注:双栏模型在文献中主要用于Count data,即那些因变量满足泊松分布或者负二项分布的情形(overdispersed data)。除此之外,双栏模型也主要是用于左端0处归并的情形,即所有观测值都是0和正数的数据类型。而对于连续性变量而非计数型变量,文献中有专门的程序去处理并且命名为“二部分模型”(Two-part model)。

下面我们来做一个具体示例,来对比Tobit模型与双栏模型的差异。

背景:我们想要研究一个人每天锻炼的时长影响因素:年龄、吸烟情况、与最近体育馆的距离,是否单身(结婚)。但是,这里的因变量——锻炼时长存在左端归并的现象,因为这个人很有可能不锻炼身体。因此,第一步,我们需要通过一些变量来预测这个人是否参与身体锻炼活动,包括“每天工作时长”、“上下班的路程”和“年龄”。然后,我们再用上面提及的变量(如,年龄、吸烟情况)去估计每天的锻炼时长。

下面这个图显示,有43.9%的个体压根不参与身体锻炼活动,这个比例是很大的了。此处的因变量概率分布不适合使用简单的OLS进行回归。适合使用Poisson分布去拟合,但在0这个点上存在很大样本量,因此我们打算用一个单独的方程去拟合0点处的数值。

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

下面这个表展示了双栏模型的回归结果,hours下方的变量用来估计那些参加锻炼的个体的锻炼时长,而selection_ll下方的变量用来预测个体是否参与锻炼活动,lnsigma为hours方程的误差项的标准差。

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

我们需要获得每个协变量的边际效应来对结果变量hours做出更直观的解释。比如,协变量age的边际效应为-0.0216855,表明个体年龄越大一岁那么他参与身体锻炼的时长(per day)就会下降0.021每小时。

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

在用双栏模型做出估计之后,我们可以以此模型预测因变量的相关信息。下表中的hourshat表示因变量hours的条件期望值,他与实际观测值hours的期望值相差不大。exercises表示因变量hours大于0的条件期望值,他比实际观测值hours的期望值大差不多2倍。

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

在双栏模型中,我们允许选择方程和结果方程的随机误差项存在条件异方差,而且允许标明是哪个解释变量影响了误差项的条件方差。在下表中,我们标明是个体的年龄和是否是单身(结婚)两个变量影响了hours方程和selection_ll方程中随机误差项的条件方差。不过从下方的lnsigma和lnsigma_ll中,我们可以看出age和single实际上并没有影响到咱们两个方程的条件方差。所以,我们之前的那个关于这两个变量导致条件异方差的Hypothesis是多余的。

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

如果我们有理由相信,我们的结果潜变量hi*(hours)是一个服从指数分布的函数,那么我们构造的似然函数就会不同于当他服从正太分布的情形。我们可以用指数双栏模型去估计个体每天锻炼身体的小时数。

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

下表显示的是指数双栏模型下各个变量的边际效应。这个结果与前面的线性双栏模型在符号上一致,而在大小程度上却有细微差异。比如,他们都表明随着年龄的增长,个体进行身体锻炼的小时数会有下降的趋势。

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

现在,我们使用Tobit模型来进行估计hours方程。所有的解释变量与上面双栏模型中是完全一样的,但是这里选择方程所用的协变量与结果方程所用的协变量是也是一样的。这也是Tobit相对于Hurdle模型要僵化很多的原因。

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

通过边际影响值对比,我们发现Tobit模型得到的结果与之前的双栏模型得到的,在符号上是一致的,只不过边际影响的力度存在差异。

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

以上这些方法都只适用于截面数据或者pooled面板数据,因此对于面板数据,这些模型不能控制unobservable异质性。

本质上,双栏模型与二部分模型是一样的原理,只不过在因变量的处理上有区别对待。当我们把因变量hours当成连续变量而非计数变量时,我们则需要采用二部分模型(Two-part model)来进行回归。下面这个就是我们使用专门针对二部分模型进行的回归,结果显示这二个方程中(Hurdle模型和Two-part模型)的系数和边际影响都大致相同。因此,无论我们使用hurdle模型还是two-part模型,都可以得到一个比较一致的结论。

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

下方是two-part模型下的边际影响。

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

如果我们不进行hurdle模型或者two-part模型回归,而用零膨胀泊松模型,那可以得到如下的回归结果。你可以比较一下zero-inflated Poisson model与hurdle模型和two-part模型的不同之处。

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

附上三句话:

Joseph Hilbe (2005) has written a series of convenience commands to analyze hurdle models. The hpclg does the poisson-cloglog hurdle model. Here is a table of the various hurdle models written by Hilbe:

双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁

微观计量研究小组各种方法论丛的do file都放在咱们的社群,可以直接到社群提取使用。

上一篇:创建ortools的Dockerfile


下一篇:layui时间选择控件时间限定