皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数,是最常用的一种相关系数。记为r,用来反映两个变量X和Y的线性相关程度,r值介于-1到1之间,绝对值越大表明相关性越强。
统计学术语:
期望值:\(E(X)\) 表示随机变量 \(X\) 的期望值。
标准差:反映一个数据集的离散程度,是方差的算术平方根。
总体标准差:
\[\sigma = \sqrt{\frac{\sum_{i=1}^n(x-\overset{-}{x})^2}{n}} \]样本标准差:
\[S = \sqrt{\frac{\sum_{i=1}^n(x-\overset{-}{x})^2}{n-1}} \]协方差(Covariance):在概率论和统计学中用于衡量两个变量的总体误差。方差是协方差的一种特殊情况,即当两个变量是相同的情况。
\[\begin{equation} \begin{aligned} Cov(X,Y) &= E[(X-E(X))(Y-E(Y))] \\ &= E(XY) - 2E(X)E(Y) + E(X)(Y) \\ &= E(XY) - E(X)E(Y) \end{aligned} \end{equation} \]定义:
两个变量之间的皮尔逊 相关系数定义为两个变量之间的协方差和标准差的商:
\[\begin{equation} \begin{aligned} \rho_{X,Y} &= \frac{cov(X,Y)}{\sigma_X\sigma_Y} \\ &= \frac{E[(X-E(X))(Y-E(Y))]}{\sigma_X\sigma_Y} \end{aligned} \end{equation} \]上式定义了总体相关系数,常用希腊小写字母 \(\rho\) 作为代表符号。估算样本的协方差和标准差,可得到样本相关系数(样本皮尔逊系数),常用英文小写字母 r 代表:
\[r=\frac{\sum_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y})}{\sqrt{\sum_{i=1}^n(X_i-\overline{X})^2}\sqrt{\sum_{i=1}^n(Y_i-\overline{Y})^2}} \]\(r\) 亦可由\((X_i,Y_i)\)样本点的标准分数均值估计,得到与上式等价的表达式:
\[r=\frac{1}{n-1}\sum_{i=1}^n(\frac{X_i-\overline{X}}{\sigma_X})(\frac{Y_i-\overline{Y}}{\sigma_Y}) \]其中 \(\frac{X_i-\overline{X}}{\sigma_X}\),\(\overline{X}\),\({\sigma_X}\) 分别是 \(X_i\) 样本的标准分数、样本平均值和样本标准差。
物理意义
皮尔森相关系数反映了两个变量的线性相关性的强弱程度,r的绝对值越大说明相关性越强。
当r>0时,表明两个变量正相关,即一个变量值越大则另一个变量值也会越大;
当r<0时,表明两个变量负相关,即一个变量值越大则另一个变量值反而会越小;
当r=0时,表明两个变量不是线性相关的(注意只是非线性相关),但是可能存在其他方式的相关性(比如曲线方式);
当r=1和-1时,意味着两个变量X和Y可以很好的由直线方程来描述,所有样本点都很好的落在一条直线上。
本文整理自网络