数据分析——统计学多指标统计方法

一、多变量分析方法的选择
https://pan.baidu.com/s/1ogCfSwcNvxlJXPhPzeHlGQ 提取码: qs3d;
分析的目的:区分有监督分析和无监督分析
1、有因变量,则建立有监督模型;
1)因变量为连续变量(建立的模型称为回归预测模型),自变量为连续变量时,可选择回归分析、方差分析;自变量为分类变量或分类+连续变量,可选择带虚拟变量的回归分析、联合分析、方差分析;
2)因变量为分类变量(建立的模型称为分类预测模型),当自变量为连续变量(或连续+分类变量)时,可选用判别分析、Logistic、Probit回归等;当自变量全部为分类变量时,可选用对数线性回归;
https://pan.baidu.com/s/1ogCfSwcNvxlJXPhPzeHlGQ 提取码: qs3d;

有监督模型具有两大通用目的:1)分析哪些自变量对因变量存在显著作用;
2)通过选择对因变量存在显著影响的自变量,建立预测因变量取值的预测模型;
https://pan.baidu.com/s/1ogCfSwcNvxlJXPhPzeHlGQ 提取码: qs3d;

2、无因变量,则建立无监督模型;
目的:1)对人进行分类;2)对变量/指标进行分类;3)分析变量与变量之间的测量关系;
1)自变量为连续变量分析时,选择因子分析(对变量/指标进行分类)、聚类分析(对人分类、对变量/指标分类);
2)自变量为分类变量时,对应分析(对人分类)、多维度尺度分析(对人分类);
https://pan.baidu.com/s/1ogCfSwcNvxlJXPhPzeHlGQ 提取码: qs3d;

3、其他分析
1)当模型中需要加入潜在变量(通过多个客观指标测量的抽象概念)、或需要考虑多个变量之间的因果关系时,可选择结构方程模型、路径模型、协方差模型;
2)综合评价:通过多个指标对多个评价对象进行排名,可选择层次分析法、因子分析等。
二、相关系数
1、不同变量类型的相关系数
1)两个变量都为连续变量,则可用pearson相关系数;
2)两个变量都为定序变量,则可用GMMA等相关系数;
3)两个变量都为定类变量,则可用LAMMDA等相关系数;
4)一个变量为定类变量,一个变量为连续变量,可通过ETA系数来测量相关性;
https://pan.baidu.com/s/1ogCfSwcNvxlJXPhPzeHlGQ 提取码: qs3d;

2、相关系数是衡量两个变量之间变化趋势点相似性;
3、三种重要相关系数
1)pearson相关系数:参数检验,针对两个都是连续变量的数据进行相关性判断;
2)spearman相关系数:非参数检验,针对两个都是定序变量;
3)Kenda’s tau-b 相关系数:非参数检验,针对两个都是定序变量;
https://pan.baidu.com/s/1ogCfSwcNvxlJXPhPzeHlGQ 提取码: qs3d;
4、相关分析的假设检验
原假设:两个变量来自总体中不存在显著相关性
研究假设:两个变量来自总体中存在显著相关性
显著性检验目的:是用来判断两个变量在总体中是否存在相关性
相关系数的目的:是计算两个变量在样本数据中的相关性强弱
https://pan.baidu.com/s/1ogCfSwcNvxlJXPhPzeHlGQ 提取码: qs3d;

上一篇:LeetCode刷题之数组链表


下一篇:微服务设计指导-用“死信-延时”队列彻底解决业务超时补偿时发生的数据库“死锁”问题