根据65123论文研究算法。
在本篇论文中有ewm、gdm、K-means、WMAM、svm等方法。*于时间限制,我组研究了K-means,svm两种方法。
SVM
支持向量机(support vector machines,SVM)是一种二分类模型,它将实例的特征向量映射为空间中的一些点,SVM的目的就是想要画出一条线,使得我们可以更好地区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类。SVM适合中小型数据样本、非线性、高维的分类问题。
SVM最早是由Vladimir N.Vapnik和Alexey Ya.Chervonenkis在1963年提出,目前的版本(soft margin)是由Corinna Cortes和Vapnik在1993年提出,并在1995年发表。深度学习(2012)出现之前,SVM 被认为机器学习中近十几年来最成功,表现最好的算法。
为了便于理解,比较SVM与高中时所学的线性回归拟合模型,可以发现二者有不少相似之处。都是使用最小二乘法来使测试样本点尽可能地贴合已经构建完的模型。
以下是西瓜书中对支持向量机的描述:
学习过基础知识后,小组成员使用UCI中车辆评价的相关数据完成了如下作业:
选定训练集后,通过改变选取的变量种类来完善模型。
K-means
K均值聚类算法(K-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
它的中心思想是事先确定常数K,常数K意味着最终的聚类类别数,首先随机选定初始点为质心,并通过计算每一个样本与质心之间的相似度(这里为欧式距离),将样本点归到最相似的类中,接着,重新计算每个类的质心(即为类中心),重复这样的过程,直到质心不再改变,最终就确定了每个样本所属的类别以及每个类的质心。由于每次都要计算所有的样本与每一个质心之间的相似度,故在大规模的数据集上,K-Means算法的收敛速度比较慢。
K值也可理解为我们希望将数据划分的类别数,K值为几,就要有几个质心。选择最优K值没有固定的公式或方法,需要人工来指定。选择较大的K值可以降低数据的误差,但会增加过拟合的风险。