一句话总结K均值算法
核心:把样本分配到离它最近的类中心所属的类,类中心由属于这个类的所有样本确定。
k均值算法是一种无监督的聚类算法。算法将每个样本分配到离它最近的那个类中心所代表的类,而类中心的确定又依赖于样本的分配方案。这是一个先有鸡还是先有蛋的问题。
在实现时,先随机初始化每个类的类中心,然后计算样本与每个类的中心的距离,将其分配到最近的那个类,然后根据这种分配方案重新计算每个类的中心。这也是一种分阶段优化的策略。
k均值算法要求解的问题是一个NPC问题,只能近似求解,有陷入局部极小值的风险。