Intro
衡量线性关系,一般要求变量(近似地)服从正态分布,并且是连续性的。
在进行归一化之后,Pearson 相关系数实际上类似于先进行中心化再做余弦相似度。
给出的结果,负相关为 -1,正相关为 1.
Pearson Correlation Coefficient 是用协方差除以两个变量的标准差得到的
输入两组数据,Pearson 相关系数约等于先进行Z-Score标准化,再给出两组数据的向量夹角的余弦。
数据归一化之后:
Pearson相关性系数与余弦相似度等价;
并且,平方欧氏距离 = 2|Vector|(1-Pearson)
但是它们在本质上不同。
Pearson 相关系数是用于衡量变量间的线性关系,而不像欧氏距离那样是非相似性的一种度量
或者说,Pearson 相关系数,类似于 Spearman ,通常是用于分析变量相关性的;
而余弦相似度/(平方)欧氏距离通常是分析个案的(非)相似度的。
举个例子,给出两组数据。用可视化的角度来看:
计算相关性,可能会先把这两组数据作为 x 和 y 画出散点图
计算相似度,可能会把这两组数据看成多维空间上的两个点。
Variance
嗯,上面四舍五入都是废话,下面补点正经的高中数学。
方差是什么?给定随机变量 \(X\),并且 \(\mathbb{E}(X)=\mu\)。
\[\sigma^2=\mathbb{E}[(X-\mu)^2] \]……很明显这需要知道 \(X\) 的,具体的分布。这不好,所以就有了我们中学或者小学学过的,方差的近似值
\[S^2=\frac{\sum\limits_{i=1}^n(X_i-\mu)^2}{n} \]满足
\[\mathbb{E}(S^2)=\sigma^2 \]根据中心极限定理,\(S^2\) 是 \(\sigma^2\) 的一个无偏估计量。
好,那么问题来了。有时候我们甚至不知道 \(\mu\)。但是我们知道 \(\overline{X}\),
有一个替代方案:
根据中心极限定理,\(\frac{\sum\limits_{i=1}^n(X_i-\overline{X})^2}{n-1}\) 是 \(\sigma^2\) 的一个无偏估计量
Covariance
然后类似地有协方差(Covariance),它是随机变量 \(X,Y\) 相关程度的度量
\[\frac{\sum\limits_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y})}{n-1} \]当然这东西也是一个近似值。
实际上:
协方差为 0 的两个随机变量称为是不相关的。
如果两个变量的变化趋势一致,即其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。
如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。[1]
PPMCC/PCCs (Pearson Correlation Coefficient)
Pearson's r。
总体Pearson相关系数
\[\rho(X,Y)=\frac{\operatorname{cov}(X,Y)}{\sigma_X\sigma_Y} \]同样地,有近似值/样本Pearson相关系数:
\[r=\frac{\sum\limits_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y})}{\sqrt{\sum\limits_{i=1}^n(X_i-\overline{X})^2}\sqrt{\sum\limits_{i=1}^n(Y_i-\overline{Y})^2}} \]或者
\[r=\frac{\sum\limits_{i=1}^n\left(\frac{X_i-\overline{X}}{\sigma_X}\right)\left(\frac{Y_i-\overline{Y}}{\sigma_Y}\right)}{n-1} \]