相关分析,是常见的统计分析方法,它旨在研究两个或多个变量之间是否存在某种依存变化关系。你知道如何判断变量之间的相关性?如何在JMP中实现相关分析?今天的文章我们就来一起探索相关分析。
为了帮助更多的临床医师学习如何运用JMP高效地开展数据分析,提高日常工作和发表论文的效率,2020年8月起,JMP资深用户、JMP特约专栏作者、资深统计学家冯国双博士及其团队将在JMP数据分析平台为大家分享一系列统计及数据分析、JMP实战操作、JMP分析报表解读等干货内容,每期一个经典话题,帮助大家掌握一个新技能。值得注意的是,这些话题并非仅针对临床医师,对所有运用JMP软件开展数据分析的小伙伴都适用。本文为此系列文章的第17期。
相关分析通常关注两个维度:相关大小和相关方向。相关大小用相关系数r的大小表示,r越大说明相关性越强。相关方向通过r的正负值来反映,正值表示正相关,负值表示负相关。
关于相关系数的强弱并无统一的划分界限,但也有一些约定俗成的看法是,|r|大于0.7认为相关性强;0.5-0.7为中等强度相关;0.3-0.5为弱相关。也有其它划分方式,如大于0.8认为相关性强,等等不一而足。尽管有这些所谓标准,但不同领域的各有侧重,例如社会学现象能达到0.7的非常少,而医学实验室指标达到0.9以上的比比皆是。所以这些所谓的划分标准,大家稍微了解一下即可,不能太死板教条。
通常意义上说的相关系数是指Pearson相关系数(有时也包括Spearman相关系数),它是用来描述线性相关的。但实际中除了线性相关外,还存在大量的非线性相关关系,例如对数相关、抛物线相关等。
因此,在进行相关分析前,最好先绘制散点图,粗略探索数据的相关性,只有数据呈现线性关联的时候,才考虑用Pearson相关系数。如果散点图显示两个变量之间可能是非线性关系,可以考虑对其中某一变量进行变量变换,然后再计算相关系数。
另外需要注意,相关不代表因果关系,一定要结合专业知识有合理解释。比如游泳死亡人数与冰糕销售量呈现正相关,我们不能推断吃冰糕会增加游泳死亡风险。变量A和B具有相关性,除了A和B具有因果关系外,另一个原因可能是有另一变量C同时对A和B产生影响,导致A和B呈现出表面上的虚假相关。比如冰糕销售量与游泳死亡风险的例子中,天气炎热就是变量C,同时导致了游泳死亡人数和冰糕销售量的上升。
本文主要介绍Pearson相关、Spearman相关以及偏相关。
当两个变量服从正态分布时,通常用Pearson相关系数度量相关性。如果有变量不服从正态分布,通常用Spearman相关系数度量相关性。如果想了解在控制了其它变量后,两个变量之间的相关系数大小,可以计算偏相关系数,例如控制年龄的影响后体重与血压之间的相关关系。
本文将基于图1所示数据,探索BMI与躯体健康评分的相关性,以及校正年龄后BMI与躯体健康评分之间的偏相关系数。
图1 示例数据图1 示例数据
01 Pearson相关与Spearman相关
Pearson相关和Spearman相关均可通过JMP菜单“分析”→“多元方法”→“多元”来实现(图2)。
图2 相关分析操作——菜单选择
在“多元与相关性”界面中,将BMI与躯体健康评分放到“Y,列“(图3)。
图3 相关分析操作——变量选择
默认结果输出Pearson相关系数矩阵(图4)和散点图矩阵(图5),可以看出两个变量的Pearson相关系数为0.1479。
图4 相关分析操作——相关系数矩阵
图5 相关分析操作——散点图矩阵图
由于BMI与躯体健康评分均不符合正态分布,因此需要输出Spearman相关系数,可点击“非参数相关性→Spearman ρ”(图6)。
图6 非参数相关性操作——菜单选择
结果如图7所示,Spearman 相关系数为0.1739。
图7 非参数相关性操作——结果输出
想显示其它结果均可通过点击“多元”左侧的红色三角形按钮来输出(图6),如想输出相应的P值,可点击相关性概率;想输出相关系数的置信区间,可点击相关性置信区间。
02 多变量的偏相关
在了解了BMI与躯体健康评分的相关性后,我们还想探索在校正年龄后BMI与躯体健康评分之间的偏相关系数。
偏相关也是通过JMP 菜单“分析”→“多元方法”→“多元”来实现。
同时将年龄、BMI与躯体健康评分三个变量拖入图2中的“Y,列”。
在结果界面中,点击“多元”左侧的红色三角形按钮,在下拉菜单中点击“偏相关性”和“偏相关性概率”(图8),即可输出偏相关系数及其P值。
图8 偏相关操作——菜单选择
输出结果见图9,校正年龄的影响后,BMI和躯体健康评分之间的相关性略有提高,从0.1479提升到0.1940,说明年龄对这两个变量之间的关系具有一定影响,但影响有限。
图9 偏相关操作——结果输出
如果想要在JMP中亲自动手实践的话,可下载最新的JMP 16免费试用。