(注:这里不再对算法公式累述)
1.相似度算法
1.1Jaccard距离
使用集合中的不同元素的比例来衡量两个集合的区分度,但是存在比较明显的问题无法关注到集合中元素的权重值(评分)
1.2余弦相似度
利用向量空间解决了权重值(评分)带入相似度计算的问题,非常常用的相似度算法,弥补了Jaccard距离计算的不足
1.3Pearson相似度(又名中心余弦相似度)
Pearson相似度是对余弦相似度改进,简明来说就是将权重值(评分)减去权重的平均值,可以理解为将权重值相对于整体占比带入到特征中,均值中心化处理对算法的准确性有一定的提高
2.奇异值分解(SVD)降维
当数据量过多的时候,相似度计算的负荷显著增大,这时候使用SVD进行降维可以有效的减轻计算负担