8.12 聚类分析
聚类[24]是经典的无监督学习方法,旨在将样本分类使得同类样本间距离尽可能小,异类样本间距离尽可能大。目前已有不少用来衡量聚类结果好坏的指标,但是几乎不存在单个指标能够满足不同用户的要求。通过同时优化聚类的多个性能指标,多目标演化算法(如 PESA-II、SPEA-II、NPGA 等)已取得成功应用[25] 。比如,文献 [26] 为每一个样本赋予一个属于 {1,2,…,K} 的值,取值为 i 表示该样本属于第 i 个类,并采用多目标演化算法 PESA-II 去优化聚类的两个性能指标:
其中,第 1 项表示最小化类内距离;第 2 项使相邻样本尽量属于同类。实验结果表明,相比仅优化单个性能指标的演化算法,以及传统的聚类方法如k-means 等,多目标演化算法获得的聚类结果更好。