皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

之前《皮尔逊相关系数(Pearson Correlation Coefficient, Pearson's r)》一文介绍了皮尔逊相关系数。那么,皮尔逊相关系数(Pearson Correlation Coefficient)余弦相似度(Cosine Similarity)之间有什么关联呢?

首先,我们来看一下什么是余弦相似度。说到余弦相似度,就要用到余弦定理(Law of Cosine)

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

假设两个向量皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)之间的夹角为皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)向量的长度分别是皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)对应的边长为向量皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)减去向量皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)的长度,也就是皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

根据余弦定理:皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

对上式进行推导:皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

这样最终可以得到:皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)就是余弦相似度,取值在-1和1之间。如果两个向量方向相反,那么皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)等于-1;如果两个向量方向相同,那么皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)等于1。可以看出,两个向量之间的夹角越小,其夹角余弦越大(越相似)。因此余弦相似度可以用来度量两个变量之间的相似程度。

上面针对的是二维空间,皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)(x1,y1),皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)(x2,y2)两个向量之间的夹角余弦为:皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

扩展到n维空间,皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)(x1,x2,...,xn),皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)(y1,y2,...,yn)两个向量之间的夹角余弦就是:皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

如果对上式数据做标准化处理:皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

夹角余弦公式就会变为:皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

对比皮尔逊相关系数的公式:皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

这两者不是完全一样吗?

因此,我们得到结论:皮尔逊相关系数就是把两组数据标准化处理之后的向量夹角的余弦。

上一篇:对于System.Net.Http的学习(二)——使用 HttpClient 进行连接


下一篇:学习“迷你ASP.NET MVC框架”后的小结