KNN算法概述

KNN算法是比较简单的基于欧氏距离的有监督分类算法;

 

大致思路:

对于多维多特征数据,数据的分布呈现一定的规律,所以通过计算待分类样本距离数据集的各个欧氏距离,距离最短的数据中点的类别,就有可能是该待分类样本的类别。

类似于聚类,其中K邻近中K的含义为欧氏距离最小的k个样本,通过统计k中哪个类别个数最多,则说明该类别最有可能是待分类样本的类别;

 

样例参考代码:

def classify(inx,dataset,labels,k):
    #输入:inx为预测样本的特征向量/dataset训练集/labels训练集标签/k最小的个数
    datasetsize=dataset.shape[0]
    #获得训练集的个数,也就是计算的个数
    diffmat=tile(inx,(datasetsize,1))-dataset
    #title为平铺函数,旨在对inx进行扩充,由(1,n)变为(m,n)直接进行欧式计算
    sqdiffmat=diffmat**2
    #注意**2是针对于矩阵内的单个元素,而不是矩阵乘积
    sqdistances=sqdiffmat.sum(axis=1)
    #对每一行的各列求和,压缩矩阵为一个列向量
    distances=sqdistances**0.5
    #列向量整体开方,仍然是欧氏距离计算范畴
    sorteddistindicies=distances.argsort()
    #argsort返回排序后的索引,而非数值
    classcount={}
    for i in range(k):
        voteilabel=labels[sorteddistindicies[i]]
        classcount[voteilabel]=classcount.get(voteilabel,0)+1
        #利用字典进行值得统计;
        #get函数旨在当字典中不含有该索引的时候,添加,并且赋值default,这里default=1
    sortedclasscount=sorted(classcount.items(),key=lambda d:d[1],reverse=True)
    #针对字典进行排序,返回一个二维数组而非dict;
    return sortedclasscount[0][0]

【补充说明】:

sorted函数:https://www.runoob.com/python/python-func-sorted.html

dict以及dict排序、迭代器问题:https://www.runoob.com/python/att-dictionary-get.html  https://blog.csdn.net/qq_32126633/article/details/78359767

numpy中sum得问题:https://blog.csdn.net/leekingsen/article/details/76242244

numpy中argsort得问题:https://blog.csdn.net/maoersong/article/details/21875705

numpy中tile得问题:https://blog.csdn.net/qq_39072607/article/details/89364254?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase

 

上一篇:K近邻算法核心函数详解


下一篇:KNN算法实现数字识别