KNN基本思想:
1、事先存在已经分类好的样本数据(如分别在A类、B类、C类等)
2、计算待分类的数据(叫做新数据)与所有样本数据的距离
3、选择K个与新数据距离最近的的样本,并统计这K个样本所属的分类(如K=10,其中有3个为A,3个为B,4个为C)
4、将新数据归属于这K个样本中出现频率最高的那个类(则新数据可分为C类)
*******************************************************************************************************************************
KNN误判率:与判别所选的距离有关。
常见的距离有:欧式距离、曼哈顿距离、Mahalanobis距离等。
*******************************************************************************************************************************
算法改进:
1、KNN易受噪声影响,孤立点对分类效果影响较大,通常先进行滤波筛选
2、K的选取也会影响分类效果
3、样本数据分类不均匀,A类样本很大,B类样本很小,则容易出现误分类;可以采取加权的方式,距离越段,则权值越大。
改进的主要思想有:
1、基于组合分类器的KNN改进算法(做多个KNN分类器,然后通过投票法组合,得票最多的分类器结果做为最终组合KNN的输出)
2、基于核映射的KNN改进算法(映射到高维空间间,突出不同类别样本间的差异,或使其线性可分)
3、基于预聚类的KNN改进算法(计算新数据与每个聚类中心的距离,将距离最短的聚类看做为近邻点的集合,然后在该集合中找K个距离最近样本,然后在用KNN算法来分类)
*******************************************************************************************************************************
KNN主要用于文本分类、聚类分析、预测分析、降维等。