《统计学习方法》笔记之朴素贝叶斯

一句话描述:在特征条件独立的情况下,学习(x,y)的联合概率分布,给定新的x,计算后验概率最大的y作为其输出。

基本方法

前提假设:条件独立假设指用于分类的特征在类确定的情况下是条件独立的。

  1. 利用训练数据估计出类别Y的先验概率分布\(p(Y)\)和条件概率分布\(P(X|Y)\),进而学习到了联合概率分布\(P(X,Y)= P(Y)P(X|Y)\)。
  2. \(P(Y)P(X|Y)=P(X)|P(Y|X)\),最终需要的就是最大的\(P(Y|X)\),又\(P(X)\)对于所有的类都是一样的,所以只需考虑P(Y)P(X|Y)。
  3. 由于条件独立假设,\(P(X|Y)= P(X1|Y) P(X2|Y) P(X3|Y)…P(Xn|Y)\),可以分别计算每个特征的条件概率,再进行相乘。

极大似然估计

\[\begin{array}{c} P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}, k=1,2, \ldots, K \\ \\ P\left(X^{(j)}=a_{j l} \mid Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}\\ \\ j=1,2, \ldots, n ; l=1,2, \ldots, S_{j} ; k =1,2, \ldots, K \end{array} \]

    式中,\(xi(j)\)是第i个样本的第\(j\)个特征;\(ajl\)是第j个特征的第l个值。

贝叶斯估计

    上述极大似然估计中,如果在训练集中某类某特征条件下无实例,则该特征该类别的后验概率将为0,不符合实际情况。因此,考虑修改\(P(X|Y)\),原分母表示某类的实例数,分子表示该类下该特征的实例数,现修改在分母上加上该特征的取值个数*某个正数,在分子上加上该正数。该正数为0时即为极大似然估计,该正数为1时即为拉普拉斯平滑。

\[\begin{array}{c} P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+\lambda}{N+K \lambda}, k=1,2, \ldots, K \\\\ P_{\lambda}\left(X^{j}=a_{j l} \mid Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+S_{j} \lambda} \\\\ j=1,2, \ldots, n ; l=1,2, \ldots, S_{j} ; k=1,2, \ldots, K \end{array} \]

    其中,\(ajl\)是第j个特征的第l个值,\(Sj\)为第\(j\)个值可能的值的个数。

上一篇:“斜杠天才”盖尔曼的夸克模型是如何诞生的?


下一篇:Linux下查看某个进程的线程数量(转)