2.2 聚类
我们经常会碰到这样的问题:
1)如何通过一些特定的症状归纳某类特定的疾病?
2)谁是银行信用卡的黄金客户?
3)谁喜欢打国际长途,在什么时间,打到哪里?
4)对住宅区进行聚类,确定自动提款机ATM的安放位置。
5)如何对用户WAP上网行为进行分析,通过客户分群进行精确营销?
除此之外,促销应该针对哪一类客户,这类客户具有哪些特征?这类问题往往是在促销前首要解决的问题,对整个客户做分群,将客户分组在各自的群组里,然后对每个不同的群组,采取不同的营销策略。这些都是聚类分析的例子。
2.2.1 聚类分析建模原理
聚类(Clustering)分析:是在没有给定划分类的情况下,根据信息相似度进行信息聚类的一种方法,因此聚类又称为无指导的学习。
与分类不同,分类需要先定义类别和训练样本,是有指导的学习。聚类就是将数据划分或分割成相交或者不相交的群组的过程,通过确定数据之间在预先指定的属性上的相似性,就可以完成聚类任务。
聚类的输入是一组未被标记的数据,根据数据自身的距离或相似度进行划分。划分的原则是保持最大的组内相似性和最小的组间相似性,也就是使不同聚类中的数据尽可能地不同,而同一聚类中的数据尽可能地相似。比如根据股票价格的波动情况,可以将股票分成不同的类,总共可以分成几类,各类包含哪些股票,每一类的特征是什么,这对投资者,尤其对投资基金的人来说,可能是很重要的信息。当然,聚类除了将样本分类外,还可以完成孤立点挖掘,如将其应用于网络入侵检测或金融风险欺诈探测中。聚类分析建模原理如图2-5所示。
2.2.2 聚类算法
常用聚类算法分类见表2-2。