1. 何为聚类标准误
标准误在统计推断中发挥着至关重要的作用,直接影响着系数的显著性和置信区间,并最终影响到假设检验的结论。因此,正确地估计标准误在实证分析的过程中显得尤为重要。当干扰项满足「独立同分布 (iid)」 条件时, OLS 所估计的标准误是无偏的。但是当误差项之间存在相关性时,OLS 所估计的标准误是有偏的,不能很好地反映估计系数的真实变异性 (Petersen, 2009),故需要对标准误进行调整。在多种调整标准误的方式中,「聚类调整标准误 (cluster)」是一种有效的方法 (Petersen, 2009)。
异方差问题是引起标准误变化的主要问题。
2. 标准误的作用
(1)构建 t 统计量。在进行统计推断时,需要构建 t 统计量来对单个参数进行假设检验
(2)构建置信区间。利用 β的标准误还可以构建总体参数 β的置信区间
3. 聚类调整标准误的基本思想
使用聚类方法调整标准误时,放宽了随机误差项「独立同分布」的假定,要点如下:
(1)允许组内个体的干扰项之间存在相关性;
(2)不同组之间个体的干扰项之间彼此不相关;
(3)系数估计值仍然采用 OLS 估计值,因为它是无偏的。
一维聚类调整标准误
*-截面数据,在公司层面进行聚类,以下两种写法等价
reg y x, cluster(id)
reg y x, vce(cluster id)
*-面板数据,在公司层面进行聚类,以下三种写法等价
xtset id year
xtreg y x, fe cluster(id)
xtreg y x, fe vce(cluster id)
xtreg y x, fe robust // If you specify -xtreg, fe robust-, Stata will automatically, and without even telling you, use vce(cluster panel_variable) instead. (This is true since version 13.)
*-面板数据,在省份层面进行聚类(地区层面聚类,t值偏小)
xtset id year
xtreg y x, fe vce(cluster prvcnm) nonest
二维聚类调整
help vce2way // Cameron et al. (2011), 可以估计二维SE, 支持 xtreg
webuse "nlswork.dta", clear
vce2way regress ln_wage age grade, cluster(idcode year)
2. 考虑在什么级别对标准误进行聚类
是对个体的、县的、省的还是行业的标准误进行聚类呢?