机器学习，你不得不掌握的十大算法（下）

2022-03-27 04:16:22

今天要介绍的算法如下：

⑥K最近邻算法

给一个新的数据时，离它最近的 k 个点中，哪个类别多，这个数据就属于哪一类。

例子：要区分“猫”和“狗”，通过“claws”和“sound”两个feature来判断的话，圆形和三角形是已知分类的了，那么这个“star”代表的是哪一类呢？

机器学习，你不得不掌握的十大算法（下）

k＝3时，这三条线链接的点就是最近的三个点，那么圆形多一些，所以这个star就是属于猫。

机器学习，你不得不掌握的十大算法（下）

⑦K均值算法

先要将一组数据，分为三类，粉色数值大，黄色数值小。

最开始先初始化，这里面选了最简单的 3，2，1 作为各类的初始值。

剩下的数据里，每个都与三个初始值计算距离，然后归类到离它最近的初始值所在类别。

机器学习，你不得不掌握的十大算法（下）

分好类后，计算每一类的平均值，作为新一轮的中心点：

机器学习，你不得不掌握的十大算法（下）

几轮之后，分组不再变化了，就可以停止了：

机器学习，你不得不掌握的十大算法（下）

⑧Adaboost算法

adaboost 是 bosting 的方法之一。

bosting就是把若干个分类效果并不好的分类器综合起来考虑，会得到一个效果比较好的分类器。

下图，左右两个决策树，单个看是效果不怎么好的，但是把同样的数据投入进去，把两个结果加起来考虑，就会增加可信度。

机器学习，你不得不掌握的十大算法（下）

adaboost 的例子，手写识别中，在画板上可以抓取到很多 features，例如始点的方向，始点和终点的距离等等。

机器学习，你不得不掌握的十大算法（下）

training的时候，会得到每个feature的weight，例如2和3的开头部分很像，这个feature对分类起到的作用很小，它的权重也就会较小。

机器学习，你不得不掌握的十大算法（下）

而这个alpha角就具有很强的识别性，这个feature的权重就会较大，最后的预测结果是综合考虑这些feature的结果。

机器学习，你不得不掌握的十大算法（下）

⑨神经网络

Neural Networks适合一个input可能落入至少两个类别里：

NN由若干层神经元，和它们之间的联系组成。
第一层是input层，最后一层是output层。

在hidden层和output层都有自己的classifier。

机器学习，你不得不掌握的十大算法（下）

input输入到网络中，被激活，计算的分数被传递到下一层，激活后面的神经层，最后output层的节点上的分数代表属于各类的分数，下图例子得到分类结果为class 1；

同样的input被传输到不同的节点上，之所以会得到不同的结果是因为各自节点有不同的weights 和bias，这也就是forward propagation。

机器学习，你不得不掌握的十大算法（下）

⑩马尔可夫

Markov Chains 由state和transitions组成。

例子，根据这一句话 ‘the quick brown fox jumps over the lazy dog’，要得到markov chains。

步骤，先给每一个单词设定成一个状态，然后计算状态间转换的概率。

机器学习，你不得不掌握的十大算法（下）

这是一句话计算出来的概率，当你用大量文本去做统计的时候，会得到更大的状态转移矩阵，例如the后面可以连接的单词，及相应的概率。

机器学习，你不得不掌握的十大算法（下）

码农公寓