机器学习,你不得不掌握的十大算法(下)

今天要介绍的算法如下:

  • K最近邻算法
  • K均值算法
  • Adaboost算法
  • 神经网络
  • 马尔可夫

⑥K最近邻算法

给一个新的数据时,离它最近的 k 个点中,哪个类别多,这个数据就属于哪一类。

例子:要区分“猫”和“狗”,通过“claws”和“sound”两个feature来判断的话,圆形和三角形是已知分类的了,那么这个“star”代表的是哪一类呢?

机器学习,你不得不掌握的十大算法(下)


k=3时,这三条线链接的点就是最近的三个点,那么圆形多一些,所以这个star就是属于猫。

机器学习,你不得不掌握的十大算法(下)


⑦K均值算法

先要将一组数据,分为三类,粉色数值大,黄色数值小 。

最开始先初始化,这里面选了最简单的 3,2,1 作为各类的初始值 。

剩下的数据里,每个都与三个初始值计算距离,然后归类到离它最近的初始值所在类别。

机器学习,你不得不掌握的十大算法(下)


分好类后,计算每一类的平均值,作为新一轮的中心点:

机器学习,你不得不掌握的十大算法(下)


几轮之后,分组不再变化了,就可以停止了:

机器学习,你不得不掌握的十大算法(下)机器学习,你不得不掌握的十大算法(下)


⑧Adaboost算法

adaboost 是 bosting 的方法之一。

bosting就是把若干个分类效果并不好的分类器综合起来考虑,会得到一个效果比较好的分类器。

下图,左右两个决策树,单个看是效果不怎么好的,但是把同样的数据投入进去,把两个结果加起来考虑,就会增加可信度。

机器学习,你不得不掌握的十大算法(下)


adaboost 的例子,手写识别中,在画板上可以抓取到很多 features,例如始点的方向,始点和终点的距离等等。

机器学习,你不得不掌握的十大算法(下)

training的时候,会得到每个feature的weight,例如2和3的开头部分很像,这个feature对分类起到的作用很小,它的权重也就会较小。

机器学习,你不得不掌握的十大算法(下)


而这个alpha角就具有很强的识别性,这个feature的权重就会较大,最后的预测结果是综合考虑这些feature的结果。

机器学习,你不得不掌握的十大算法(下)


⑨神经网络

Neural Networks适合一个input可能落入至少两个类别里:

NN由若干层神经元,和它们之间的联系组成。
第一层是input层,最后一层是output层。

在hidden层和output层都有自己的classifier。

机器学习,你不得不掌握的十大算法(下)


input输入到网络中,被激活,计算的分数被传递到下一层,激活后面的神经层,最后output层的节点上的分数代表属于各类的分数,下图例子得到分类结果为class 1;

同样的input被传输到不同的节点上,之所以会得到不同的结果是因为各自节点有不同的weights 和bias,这也就是forward propagation。

机器学习,你不得不掌握的十大算法(下)


⑩马尔可夫

Markov Chains 由state和transitions组成。

例子,根据这一句话 ‘the quick brown fox jumps over the lazy dog’,要得到markov chains。

步骤,先给每一个单词设定成一个状态,然后计算状态间转换的概率。

机器学习,你不得不掌握的十大算法(下)


这是一句话计算出来的概率,当你用大量文本去做统计的时候,会得到更大的状态转移矩阵,例如the后面可以连接的单词,及相应的概率。

机器学习,你不得不掌握的十大算法(下)


生活中,键盘输入法的备选结果也是一样的原理,模型会更高级。

上一篇:接入百度大脑OCR技术,读书郎让小朋友变身“自学读书郎”


下一篇:这些世界杯球星你真的认识吗?不如通过Python来认识一下吧