贝叶斯(Bayes)定理
(条件概率)
贝叶斯分类器(Bayes分类器)
1概念:
- 将每个属性及类别标记视为随机变量
- 给定一个具有属性集合(A1, A2,…,An)的记录
- 目标是预测类别属性C
- 具体而言,要寻找使得P(C| A1, A2,…,An )最大的类别C。
2方法:
- 利用Bayes定理计算所有类别C的后验概率P(C | A1, A2, …, An)
选择使如下概率值最大的类别C :P(C | A1, A2, …, An)
等价于使如下概率值最大:P(A1, A2, …, An|C) P(C)
朴素贝叶斯分类器(朴素Bayes分类器)
-
l假定给定类别的条件下属性Ai之间是独立的:P(A1, A2, …, An |C) = P(A1| Cj) P(A2| Cj)… P(An| Cj)可以从Ai和Cj中估算出P(Ai| Cj),类别为使P(Cj)P(Ai| Cj)最大的类Cj
举例
1、如图所示,已知以下训练集Give Birth,Can Fly,Live in Water,Have Legs的属性,判断所给出测试集是属于(class)哪一类
2、计算
解释:p(A|M)=6/7*6/7*2/7*2/7: class中属于动物类的有7个,在这7个里,其中Give Birth是yes的有6个;Can Fly是no的有6个;Live in Water是yes的有2个;Have Legs是no的有2个。
p(A|N)=1/13*10/13*3/13*4/13: class中属于非动物类的有13个,在这13个里,其中Give Birth是yes的有1个;Can Fly是no的有10个;Live in Water是yes的有3个;Have Legs是no的有4个。
因为P(A|M)P(M)>P(A|N)P(N),所以测试类为动物