机器学习-K-means聚类及算法实现（基于R语言）

2023-07-24 22:09:22

K-means聚类

将n个观测点，按一定标准（数据点的相似度），划归到k个聚类（用户划分、产品类别划分等）中。

重要概念：质心

K-means聚类要求的变量是数值变量，方便计算距离。

算法实现

R语言实现

k-means算法是将数值转换为距离，然后测量距离远近进行聚类的。不归一化的会使得距离非常远。

补充：scale归一化处理的意义

两个变量之间数值差别太大，比如年龄与收入的数值差别就很大。

步骤

第一步，确定聚类数量，即k的值

方法：肘部法则+实际业务需求

第二步，运行K-means模型

第三步，总结聚类模型结果