采用的包: corrgram
采用的数据集:USJudgeRatings(43名律师的12个评价指标)
> head(USJudgeRatings)
CONT INTG DMNR DILG CFMG DECI PREP FAMI ORAL WRIT PHYS RTEN
AARONSON,L.H. 5.7 7.9 7.7 7.3 7.1 7.4 7.1 7.1 7.1 7.0 8.3 7.8
ALEXANDER,J.M. 6.8 8.9 8.8 8.5 7.8 8.1 8.0 8.0 7.8 7.9 8.5 8.7
ARMENTANO,A.J. 7.2 8.1 7.8 7.8 7.5 7.6 7.5 7.5 7.3 7.4 7.9 7.8
BERDON,R.I. 6.8 8.8 8.5 8.8 8.3 8.5 8.7 8.7 8.4 8.5 8.8 8.7
BRACKEN,J.J. 7.3 6.4 4.3 6.5 6.0 6.2 5.7 5.7 5.1 5.3 5.5 4.8
BURNS,E.B. 6.2 8.8 8.7 8.5 7.9 8.0 8.1 8.0 8.0 8.0 8.6 8.6
相关图是为了判断数据各个变量与其他变量相关性的图,表示数据之间的相关性,可以采用相关系数矩阵,R语言自带数据集Harman23.cor表示的就是305个女孩八个形态指标的相关系数矩阵:
> Harman23.cor
$cov
height arm.span forearm lower.leg weight bitro.diameter chest.girth chest.width
height 1.000 0.846 0.805 0.859 0.473 0.398 0.301 0.382
arm.span 0.846 1.000 0.881 0.826 0.376 0.326 0.277 0.415
forearm 0.805 0.881 1.000 0.801 0.380 0.319 0.237 0.345
lower.leg 0.859 0.826 0.801 1.000 0.436 0.329 0.327 0.365
weight 0.473 0.376 0.380 0.436 1.000 0.762 0.730 0.629
bitro.diameter 0.398 0.326 0.319 0.329 0.762 1.000 0.583 0.577
chest.girth 0.301 0.277 0.237 0.327 0.730 0.583 1.000 0.539
chest.width 0.382 0.415 0.345 0.365 0.629 0.577 0.539 1.000
$center
[1] 0 0 0 0 0 0 0 0
$n.obs
[1] 305
当所要分析的数据少的时候运用相关系数矩阵也不失为一种好方法,但是一旦变量增多,就很难从相关系数矩阵中直接分析哥变量之间的相关性,因此,具有视觉直观性的相关图显得十分重要。运用corrgram包绘制相关图的代码及运行结果如下:
> install.packages("corrgram")
> library(corrgram)
> corrgram(USJudgeRatings,order=TRUE,lower.panel = panel.shade,upper.panel = panel.pie,text.panel = panel.txt)
相关图解读:
中间白色对角线内存放着12个变量名,以变量CFMG与ORAL为例,变量CFMG所在列与变量ORAL所在行两者相交所得到的图形即为两者的相关性图。
蓝色方格以及斜向上的线条表示两者呈正相关,其中蓝色颜色越深表示两者相关性越强;两者相交所得到的扇形图形中,扇形部分颜色面积越大,表示相关性越强,其中正相关的表示方法为:从扇形顶部开始,颜色从顺时针方向填充。同理,红色方格表示负相关,颜色越深相关性越强,其扇形图由扇形顶部逆时针开始填充。
代码解读:
order = TRUE 表示相关矩阵使用主成分分析法对变量进行重排,使得二元变量的相关模型更为明显
lower.panel 表示下三角的图形
upper.panel 表示上三角的图形
text.panel 表示对角线中的变量名
因为上下三角所表示的都是数据的相关性,只是表示方法不同,可以根据自己的需要使用NULL去除不需要的图形。
去除上三角扇形的代码及运行结果如下:
> corrgram(USJudgeRatings,order=TRUE,lower.panel = panel.shade,upper.panel = NULL,text.panel = panel.txt)