(学习笔记)K-Means算法原理及其python实现

1.基本K-Means算法

K-Means算法是较为常用的聚类算法,其目标是将数据点划分为K个类簇。K-Means主要思想是选取K个中心点,对最靠近它的对象进行归类,通过迭代的方式不断更新聚类结果,直到满足使用者的要求。

2.K-Means算法主要实现步骤

(1)确定K值,将数据集划分为K组,确定K值没有最好的方法,一般情况下根据具体问题由人工进行选择。
(2)从数据集中选择K个点作为数据中心(可随机选择,可由距离选择)。
(3)分别计算每个点到每个质心之间的距离,并将每个点划分到离最近质心的小组。
(4)当每个中心都聚集一些点后,根据规则重新选取新的数据中心。
(5)跌倒(2)~(4),直到满足终止条件为止。

3.python实现

K-Means主要包括获取数据中心、获取每个数据点到数据中心的距离、更新数据中心等主要功能,笔者实现时,还加入了一些处理函数,下面为大家逐一讲解。
def get_center(data,k):
    dim=np.shape(data)[1]#获取原始数据的维度
    center=np.zeros((k,dim))#k*n列矩阵
    ocenter=sample(list(data),k)#随机选取k个数据中心
    for i in range(k):
        center[i]=ocenter[i]#将数据中心写入矩阵
    #center=center.astype(np.int)
    return center

上述代码主要实现了获取数据中心的功能,输入参数data为输入的原始数据,K是想要分为K组。

def get_distance(a,b):
    return math.sqrt(sum(pow(a-b,2)))#计算两点之间距离
def detele_center(data,center,K):#将数据中心从原始数据中删除
    ex_data = data
    for i in range(K):#遍历维度
        # print('centeri=',center[i],'\n')
        for j in range(len(ex_data)):#遍历数据行数
            # print('exdataj=',ex_data[j],'\n')
            if (center[i] == ex_data[j]).all:#若数据中心和原始数据相等,则删除
                ex_data = np.delete(ex_data, j, axis=0)  # 删除整行数据
                break
    return ex_data
def delete_zero(a):#传入分组结果,将分组没用到的位置删除
    group=list(a)
    index=[]
    for j, each in enumerate(group):#若group=[2 2],则enumerate(group)可生成[(0,2),(1,2)]的list
        if each == 0:#若值为0则删除
            index.append(j)
            del group[j]
    for k, each in enumerate(group):
        each_int = int(each)
        group[k] = each_int
    group = np.array(group)
    return group
def get_updatecenter(n_data,K):#输入n_data的数据类型为(n,2)的list
    # n行代表的是从原始数据剔除数据中心后的数据行数
    #列1代表的是分组结果,列2代表的是数据点
    center=[]
    write = True#写指针
    for i in range(K):
        exec("center_" + str(i) + "=[]")#生成K个list分别存储k个组的数据点
    while write:
        for i in range(K):
            for j in range(len(n_data)):
                if i + 1 == n_data[j][0]:#索引从0开始,分组从1开始,将当前组的数据存入对应的list
                    exec("center_" + str(i) + ".append(n_data[j][1])")
                    n_data.remove(n_data[j])#移除该数据点
                    break
        if len(n_data) == 0:#若全部写入对应list后,跳出循环
            write = False
    for i in range(K):#生成k个变量存储k个数据中心
        print("center_" + str(i) + "=")
        exec("print(center_" + str(i) + ")")
    ex_data = data#数据移除后,重新接收
    for i in range(K):#从每组中随机选择1个新的数据中心
        exec("center_0" + str(i) + "=get_center(center_" + str(i) + ",1)")
        exec("center.append(center_0"+str(i)+")")
    ex_data=detele_center(ex_data,center,K)#移除数据中心,获取新的实验数据
    for i in range(K):#调试用,查看每个数据中心
        print("center_0"+str(i)+"=")
        exec("print(center_0"+str(i)+")")
    return ex_data
def K_Means(data,K):#K-Means处理流程
    center=get_center(data,K)#获取数据中心
    print("初始中心点坐标为:\n", center)
    ex_data=detele_center(data,center,K)#获取实验数据
    print("实验数据为:\n",ex_data)
    n=np.shape(ex_data)[0]
    flag=True#判断符
    ogroup = 0#用于存储上一次的分组结果
    while flag:
        shorest_distance = float("inf")#初始化最短距离为无穷大
        group = np.zeros((n, 1))  # 记录组号,group记录每一个数据点的组号
        distance = 0
        idex = 0
        print("ex_data=",ex_data)
        #print("")
        #print("group=", len(group))
        for i in range(len(ex_data)):#遍历实验数据行
            for j in range(K):#遍历维度
                distance=get_distance(ex_data[i],center[j])#计算每个数据点到数据中心的距离
                #print("distance=\n",distance)
                if distance<shorest_distance:
                    shorest_distance=distance
                    idex=j+1  #记录组号
            #print("shorest_distance=\n",shorest_distance)
            group[i]=idex#写入group
        group=group.astype(np.int)
        group=delete_zero(group)
        group=np.array(group)
        print("ogroup=",ogroup)
        if all(ogroup==group):#若上一次存储结果和本次相同,表示迭代结果不会发生变化,跳出循环
            flag=False
        else:
            ogroup=group
        print("group=\n",group)
        #若继续迭代
        n_data1=list(zip(group,ex_data))#将分组结果和实验数据进行对应建立(n,2)的list
        nlist=list(range(1,K+1))#生成一个1~k的list,1~k的编号
        n_data2=list(zip(nlist,center))#将1~k的编号和数据中心对应
        n_data=n_data1+n_data2#生成一个每个数据点的值和其分组结果对应的list
        ex_data=get_updatecenter(n_data,K)#更新数据中心
    return group
#test
data=np.array([[1,2],[7,8],[100,200],[50,70],[8,9],[30,12],[170,14],[189,768],[371,876],[876,476]])
group=K_Means(data,3)
print('group:\n',group)

4.总结

优点:
(1)实现简单。
(2)运行效率较高。
(3)当结果簇是密集的,效果较好。
缺点:
(1)必须事先给出K值。
(2)对孤立点和噪声较为敏感。
由于本人第一次发文,记录学习过程,文章观感可能不太好,后面会进行相应的改进,有兴趣一起学习讨论的小伙伴可以加QQ:1530932377。

上一篇:Linux下手动备份还原硬盘主引导记录MBR跟硬盘分区表DPT教程


下一篇:PHP使用RabbitMQ实例