07 聚类算法 - 代码案例三 - K-Means算法和Mini Batch K-Means算法效果评估
四、聚类算法的衡量指标
● 混淆矩阵
● 均一性
● 完整性
● V-measure
● 调整兰德系数(ARI)
● 调整互信息(AMI)
● 轮廓系数(Silhouette)
1、均一性
__均一性:__一个簇中只包含一个类别的样本,则满足均一性;其实也可以认为就是正确率(每个聚簇中正确分类的样本数占该聚簇总样本数的比例和);
2、完整性
__完整性:__同类别样本被归类到相同簇中,则满足完整性;每个聚簇中正确分类的样本数占类型的总样本数比例的和。
3、V-measure
__V-measure:__均一性和完整性的加权平均。
4、调整兰德系数(ARI)
__Rand index(兰德指数)(RI)__,RI取值范围为[0,1],值越大意味着聚类结果与真实情况越吻合。
其中C表示实际类别信息,K表示聚类结果,a表示在C与K中都是同类别的元素对数,b表示在C与K中都是不同类别的元素对数,C2N samples 表示数据集中可以组成的对数。
__调整兰德系数(ARI,Adjusted Rnd Index)__,ARI取值范围[-1,1],值越大,表示聚类结果和真实情况越吻合。从广义的角度来将,ARI是衡量两个数据分布的吻合程度的。
5、调整互信息(AMI)
调整互信息(AMI,Adjusted Mutual Information) 类似ARI,内部使用信息熵。
6、轮廓系数
__簇内不相似度:__计算样本i到同簇其它样本的平均距离为ai;ai越小,表示样本i越应该被聚类到该簇,簇C中的所有样本的ai的均值被称为簇C的簇不相似度。
__簇间不相似度:__计算样本i到其它簇Cj的所有样本的平均距离bij,i=min{bi1,bi2,...,bik};bi越大,表示样本i越不属于其它簇。
轮廓系数: si值越接近1表示样本i聚类越合理,越接近-1,表示样本i应该分类到另外的簇中,近似为0,表示样本i应该在边界上;所有样本的si的均值被成为聚类结果的轮廓系数。