1、聚类算法:是无监督学习的一种,训练样本的标记信息是未知的,通过训练自动形成簇,簇所对应的概念语义需要由使用者来把握和命名。
2、聚类算法的作用:可单独作为一个寻找数据内在分布结构的过程,也可作为其他学习任务的前驱过程。
3、度量聚类算法的性能:首先,聚类算法的目标是“簇内相似度”高,“簇间相似度”低。度量性能的指标有“外部指标”和“内部指标”两种,这些指标的核心思想都是计算相似度,但外部指标是聚类得到的簇与给定的簇计算相似度,内部指标是样本与聚类得到的簇之间计算相似度或者样本与样本之间的相似度。
3.1、“外部指标”是将聚类结果与给出的参考模型的簇划分进行两两配对考虑,可以计算Jaccard系数、FM指数和Rand指数。其计算结果都在0到1之间,且越大越好。
3.2、“内部指标”主要有DB指数、Dunn指数。
4、怎么度量样本与样本间的相似度?
首先样本之间的距离满足三个性质:非负性,相同样本距离为0,两边之和大于等于第三边。
其次,距离度量使用“闵科夫斯基距离”,但是它只能用于有序属性间的距离,对于无序属性用VDM来度量,它们两者的结合可以度量混合属性。