回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是, 通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
回归分析的使命:
使命1:回归分析要去识别并判断:哪些X变量是同Y真的相关,哪些不是。统计学中有一个非常重要的领域,叫做“变量选择”。(逐步回归法)
使命2:去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用的X变量了。接下来回归分析要回答的问题是:这些有用的X变量同Y的相关关系是正的呢,还是负的?
使命3:在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重,也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性。这就是回归分析要完成的三个使命:
第一、识别重要变量; 第二、判断相关性的方向; 第三、要估计权重(回归系数)。
多元线性回归进行数据处理时使用的软件为stata,使用命令如下:
import 数据-> 新建do文件,sum做定量分析,tab作定性分析,reg做回归分析,stepwise regress做逐步回归,VIF(方差膨胀因子),r,b(标准化回归),(键盘)pageup(历史命令查询)
例题:下表是1990-2007年中国棉花单产与要素投入表格。请对5个要素投入做共线性诊断,并做单产对于5个要素投入的逐步回归模型,指出哪个要素投入是最重要的要素?
表 1990-2007年中国棉花单产与要素投入
年 份 |
单产 kg/公顷 |
种子费 元/公顷 |
化肥费 元/公顷 |
农药费 元/公顷 |
机械费 元/公顷 |
灌溉费 元/公顷 |
1990 |
1017.0 |
106.05 |
495.15 |
305.1 |
45.9 |
56.1 |
1991 |
1036.5 |
113.55 |
561.45 |
343.8 |
68.55 |
93.3 |
1992 |
792.0 |
104.55 |
584.85 |
414 |
73.2 |
104.55 |
1993 |
861.0 |
132.75 |
658.35 |
453.75 |
82.95 |
107.55 |
1994 |
901.5 |
174.3 |
904.05 |
625.05 |
114 |
152.1 |
1995 |
922.5 |
230.4 |
1248.75 |
834.45 |
143.85 |
176.4 |
1996 |
916.5 |
238.2 |
1361.55 |
720.75 |
165.15 |
194.25 |
1997 |
976.5 |
260.1 |
1337.4 |
727.65 |
201.9 |
291.75 |
1998 |
1024.5 |
270.6 |
1195.8 |
775.5 |
220.5 |
271.35 |
1999 |
1003.5 |
286.2 |
1171.8 |
610.95 |
195 |
284.55 |
2000 |
1069.5 |
282.9 |
1151.55 |
599.85 |
190.65 |
277.35 |
2001 |
1168.5 |
317.85 |
1105.8 |
553.8 |
211.05 |
290.1 |
2002 |
1228.5 |
319.65 |
1213.05 |
513.75 |
231.6 |
324.15 |
2003 |
1023 |
368.4 |
1274.1 |
567.45 |
239.85 |
331.8 |
2004 |
1144.5 |
466.2 |
1527.9 |
487.35 |
408 |
336.15 |
2005 |
1122 |
449.85 |
1703.25 |
555.15 |
402.3 |
358.8 |
2006 |
1276.5 |
537 |
1888.5 |
637.2 |
480.75 |
428.4 |
2007 |
1233 |
565.5 |
2009.85 |
715.65 |
562.05 |
456.9 |
1、有定量数据的做定量数据分析
对数据进行描述性统计命令 :‘sum 变量1 变量2 ...’
2、做回归分析
设原假设为H0: beta1=beta2=beta3=beta4=beta5=0
2.1对模型进行回归分析、方差分析
stata命令 ‘reg 因变量 自变量1 自变量2 ...’
分析:得到联合显著性检验F(5,12)=6.86,P值(Prob>F=0.0031) P值<0.05,在95%的置信区间下拒绝原假设;R^2=0.7408,调整后R^2=0.6327,调整后拟合优度与调整前差别较大,数据之间可能有完全多重共线性影响。
考虑到对棉花产量的回归是解释性回归,对R^2的要求不是很高,主要关注模型整体的显著性以及自变量的统计显著性和经济意义显著性。
设原假设为H0: beta1=beta2=beta3=beta4=beta5=0
分析:P<0.05表示在95%的置信水平下,该回归的系数显著的异于0,而对棉花的产量进行回归分析的,各系数的p值均>0.05,说明t检验的结果均不显著,进一步说明可能存在多重共线性影响。
2.2异方差检验
怀特检验
原假设:不存在异方差
分析:异方差检验的p值=0.3888>0.05,在95%的置信水平下不能拒绝原假设,即接受原假设,不存在异方差的影响。
2.3检验多重共线性
对数据进行回归分析后,t检验得到的结果不具有显著性,考虑到回归模型可能存在多重共线性的影响,多重共线性会使R方很大,F检验显著,但t检验是不显著的,检验多重贡献性用方差膨胀因子(Variance Inflation Factor)VIF
假设有k个自变量,,,第m个自变量的VIFm=...VIFm越大,说明第m个变量和其他变量的相关性越大,一般认为VIF>10,该回归方程存在严重多重共线性。
分析:除农药费这个自变量其他变量的VIF均大于10,因此,这四个变量具有多重共线性的影响,由于多重共线性影响到了结果的显著性,为此采用逐步回归的方法解决。
2.4向后逐步回归
P检验的值均小于0.05,在95%的置信水平下拒绝原假设,即农药费和灌溉费两个变量是显著的。
得到方程为:
Y=-0.367914X1+1.110757X2+973.365
回归系数的解释:
由此可以看出,当其他自变量不变的情况下,农药费每增加收入1元,棉花单产量就会较少0.367914kg;其他自变量不变的情况下,灌溉费每增加1元,棉花单产量就会增加1.110757kg。
分析:在对逐步回归进行标准化回归,灌溉费变量的系数为1.110大于农药费系数绝对值0.367,因此对棉花产量影响最大的是灌溉费