机器学习-K-means聚类及算法实现(基于R语言)

K-means聚类

将n个观测点,按一定标准(数据点的相似度),划归到k个聚类(用户划分、产品类别划分等)中。

重要概念:质心

机器学习-K-means聚类及算法实现(基于R语言)

机器学习-K-means聚类及算法实现(基于R语言)

K-means聚类要求的变量是数值变量,方便计算距离。

 

算法实现

机器学习-K-means聚类及算法实现(基于R语言)

 

R语言实现

 k-means算法是将数值转换为距离,然后测量距离远近进行聚类的。不归一化的会使得距离非常远。

补充:scale归一化处理的意义

两个变量之间数值差别太大,比如年龄与收入的数值差别就很大。

机器学习-K-means聚类及算法实现(基于R语言)

步骤

机器学习-K-means聚类及算法实现(基于R语言)

第一步,确定聚类数量,即k的值

方法:肘部法则+实际业务需求

机器学习-K-means聚类及算法实现(基于R语言)

第二步,运行K-means模型

机器学习-K-means聚类及算法实现(基于R语言)

第三步,总结聚类模型结果

机器学习-K-means聚类及算法实现(基于R语言)

 

上一篇:机器学习:高级算法课程学习总结


下一篇:k-means聚类分析范例程序