数学建模-多元线性回归（Stata实现）

2024-03-31 12:19:46

回归分析是数据分析中最基础也是最重要的分析工具，绝大多数的数据分析问题，都可以使用回归的思想来解决。回归分析的任务就是，通过研究自变量X和因变量Y的相关关系，尝试去解释Y的形成机制，进而达到通过X去预测Y的目的。

回归分析的使命：

使命1：回归分析要去识别并判断：哪些X变量是同Y真的相关，哪些不是。统计学中有一个非常重要的领域，叫做“变量选择”。（逐步回归法）

使命2：去除了那些同Y不相关的X变量，那么剩下的，就都是重要的、有用的X变量了。接下来回归分析要回答的问题是：这些有用的X变量同Y的相关关系是正的呢，还是负的？

使命3：在确定了重要的X变量的前提下，我们还想赋予不同X不同的权重，也就是不同的回归系数，进而我们可以知道不同变量之间的相对重要性。这就是回归分析要完成的三个使命：

第一、识别重要变量； 第二、判断相关性的方向； 第三、要估计权重（回归系数）。

多元线性回归进行数据处理时使用的软件为stata，使用命令如下：

import 数据-> 新建do文件，sum做定量分析，tab作定性分析，reg做回归分析，stepwise regress做逐步回归，VIF（方差膨胀因子），r,b(标准化回归），（键盘）pageup（历史命令查询）

例题：下表是1990-2007年中国棉花单产与要素投入表格。请对5个要素投入做共线性诊断，并做单产对于5个要素投入的逐步回归模型，指出哪个要素投入是最重要的要素？

表 1990-2007年中国棉花单产与要素投入

年份	单产 kg/公顷	种子费元/公顷	化肥费元/公顷	农药费元/公顷	机械费元/公顷	灌溉费元/公顷
1990	1017.0	106.05	495.15	305.1	45.9	56.1
1991	1036.5	113.55	561.45	343.8	68.55	93.3
1992	792.0	104.55	584.85	414	73.2	104.55
1993	861.0	132.75	658.35	453.75	82.95	107.55
1994	901.5	174.3	904.05	625.05	114	152.1
1995	922.5	230.4	1248.75	834.45	143.85	176.4
1996	916.5	238.2	1361.55	720.75	165.15	194.25
1997	976.5	260.1	1337.4	727.65	201.9	291.75
1998	1024.5	270.6	1195.8	775.5	220.5	271.35
1999	1003.5	286.2	1171.8	610.95	195	284.55
2000	1069.5	282.9	1151.55	599.85	190.65	277.35
2001	1168.5	317.85	1105.8	553.8	211.05	290.1
2002	1228.5	319.65	1213.05	513.75	231.6	324.15
2003	1023	368.4	1274.1	567.45	239.85	331.8
2004	1144.5	466.2	1527.9	487.35	408	336.15
2005	1122	449.85	1703.25	555.15	402.3	358.8
2006	1276.5	537	1888.5	637.2	480.75	428.4
2007	1233	565.5	2009.85	715.65	562.05	456.9