【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★

文章目录

一、 贝叶斯分类器分类的流程

二、 拉普拉斯修正

三、 贝叶斯分类器示例2



参考博客 :


【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )

【数据挖掘】贝叶斯公式应用 拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )

【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )

【数据挖掘】朴素贝叶斯分类器 ( 多属性概率计算 | 朴素贝叶斯分类案例分析 )

【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )

【数据挖掘】贝叶斯信念网络 ( 马尔科夫假设 | 结构 | 有向无环图 | 参数 | 条件概率表 | 案例分析 )





一、 贝叶斯分类器分类的流程


已知条件 :


已知样本 : 已知若干个样本


未知样本 : 给定 1 11 个未知样本 , 其有 4 44 个属性组成向量 X \rm XX , 样本的分类有两种 , Y \rm YY 和 N \rm NN ; ( Yes / No )



分类步骤 :


计算两个概率 , 即


① 样本取值为 X \rm XX 向量时 , 分类为 Y \rm YY 的概率 , 公式为 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) \rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}P(Y∣X)=

P(X)

P(X∣Y)P(Y)


 , 其中 P ( X ∣ Y ) P ( Y ) \rm P(X | Y) P(Y)P(X∣Y)P(Y) 含义是 : 样本分类 Y \rm YY 的概率 P ( Y ) \rm P(Y)P(Y) , 乘以 样本分类为 Y \rm YY 前提下样本取值 X \rm XX 时的概率 P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) , 是 P ( X Y ) \rm P(XY)P(XY) 共同发生的概率 ;


② 样本取值为 X \rm XX 向量时 , 分类为 N \rm NN 的概率 , 公式为 P ( N ∣ X ) = P ( X ∣ N ) P ( N ) P ( X ) \rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}P(N∣X)=

P(X)

P(X∣N)P(N)


 , 其中 P ( X ∣ N ) P ( N ) \rm P(X | N) P(N)P(X∣N)P(N) 含义是 : 样本分类为 N \rm NN 的概率 P ( N ) \rm P(N)P(N) , 乘以 样本取值 N \rm NN 时的概率 P ( X ∣ N ) \rm P(X | N)P(X∣N) , 是 P ( X N ) \rm P(XN)P(XN) 共同发生的概率 ;


上述两个概率 , 哪个概率高 , 就将该样本分为哪个分类 ;



先验概率 : P ( Y ) \rm P(Y)P(Y) , P ( N ) \rm P(N)P(N) ;


后验概率 : P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) , P ( X ∣ N ) \rm P(X | N)P(X∣N) ;


公式中每个元素的含义参考 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )


上述两个公式 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) \rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}P(Y∣X)=

P(X)

P(X∣Y)P(Y)


 和 P ( N ∣ X ) = P ( X ∣ N ) P ( N ) P ( X ) \rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}P(N∣X)=

P(X)

P(X∣N)P(N)


 , 分母都是 P ( X ) \rm P(X)P(X) , 只比较分子即可 , 其中先验概率 P ( Y ) \rm P(Y)P(Y) , P ( N ) \rm P(N)P(N) 很容易求得 , 重点是求两个后验概率 P ( X ∣ Y ) P ( Y ) \rm P(X | Y) P(Y)P(X∣Y)P(Y) , P ( X ∣ N ) P ( N ) \rm P(X | N) P(N)P(X∣N)P(N) ;



后验概率 P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) 求法 : 针对 X \rm XX 向量中 4 44 个分量属性的取值 , 当样品类型是 Y \rm YY 时 , 分量 1 11 取值为该分量属性时的概率 , 同理计算出 4 44 个分量属性对应的 4 44 个概率 , 最后将 四个概率相乘 ;


后验概率 P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) 再乘以先验概率 P ( Y ) \rm P(Y)P(Y) , 就是最终的 未知样本分类为 Y \rm YY 类型的概率 ;



最终对比样本 , ① 未知样本分类为 Y \rm YY 类型的概率 , ② 未知样本分类为 N \rm NN 类型的概率 , 哪个概率大 , 就分类为哪个类型 ;






二、 拉普拉斯修正


在计算后验概率 P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) 时 , 需要计算出 当样品类型是 Y \rm YY 时 , X \rm XX 向量的 分量 1 11 取值为该分量属性时的概率 , 同理计算出 4 44 个分量属性对应的 4 44 个概率 , 最后将 四个概率相乘 ;


如果上述 4 44 个相乘的概率其中有一个是 0 00 , 那么最终结果肯定就是 0 00 , 这里需要避免这种情况 , 引入拉普拉斯修正 ;


直接上栗子 , 不扯公式 ;


如果计算时 , 9 99 个样本是购买商品的 , 但年龄都大于 30 3030 , 计算过程如下 ;


P ( 年 龄 小 于 30 ∣ Y ) = 0 9 \rm P( 年龄小于 30 | Y) = \cfrac{0}{9}P(年龄小于30∣Y)=

9

0



拉普拉斯修正就是分子加 1 11 , 分母加上样本类型个数 2 22 ; ( 样本有两个类型 , Y \rm YY 购买商品 , N \rm NN 不购买商品 ) ;


P ( 年 龄 小 于 30 ∣ Y ) = 0 + 1 9 + 2 = 1 11 \rm P( 年龄小于 30 | Y) = \cfrac{0 + 1}{9 + 2} = \cfrac{1}{11}P(年龄小于30∣Y)=

9+2

0+1


=

11

1




注意是所有的分量的概率都要进行拉普拉斯修正 , 不能只修正这一个 ;



具体的详细的公式以及理论查看 【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )






三、 贝叶斯分类器示例2


分类需求 : 根据 年龄 , 收入水平 , 级别 , 部门 , 人数 , 预测 " 年龄 31..35 31..3531..35, 收入 41 k . . 45 k \rm 41k..45k41k..45k , s y s t e m s \rm systemssystems 部门 " 的员工级别 ;



年龄 收入 级别 部门 人数

31..35 31..3531..35 46 k . . 50 k \rm 46k..50k46k..50k s e n i o r \rm seniorsenior s a l e s \rm salessales 30 3030

26..30 26..3026..30 26 k . . 30 k \rm 26k..30k26k..30k j u n i o r \rm juniorjunior s a l e s \rm salessales 40 \rm 4040

31..35 31..3531..35 31 k . . 35 k \rm 31k..35k31k..35k j u n i o r \rm juniorjunior s a l e s \rm salessales 40 \rm 4040

21..25 21..2521..25 46 k . . 50 k \rm 46k..50k46k..50k j u n i o r \rm juniorjunior s y s t e m s \rm systemssystems 20 \rm 2020

31..35 31..3531..35 66 k . . 70 k \rm 66k..70k66k..70k s e n i o r \rm seniorsenior s y s t e m s \rm systemssystems 5 \rm 55

26..30 26..3026..30 46 k . . 50 k \rm 46k..50k46k..50k j u n i o r \rm juniorjunior s y s t e m s \rm systemssystems 3 \rm 33

41..45 41..4541..45 66 k . . 45 k \rm 66k..45k66k..45k s e n i o r \rm seniorsenior s y s t e m s \rm systemssystems 3 \rm 33

36..40 36..4036..40 46 k . . 50 k \rm 46k..50k46k..50k s e n i o r \rm seniorsenior m a r k e t i n g \rm marketingmarketing 10 \rm 1010

31..35 31..3531..35 41 k . . 45 k \rm 41k..45k41k..45k j u n i o r \rm juniorjunior m a r k e t i n g \rm marketingmarketing 4 \rm 44

46..50 46..5046..50 36 k . . 40 k \rm 36k..40k36k..40k s e n i o r \rm seniorsenior s e c r e t a r y \rm secretarysecretary 4 \rm 44

26..30 26..3026..30 26 k . . 30 k \rm 26k..30k26k..30k j u n i o r \rm juniorjunior s e c r e t a r y \rm secretarysecretary 6 \rm 66


未知样本 取值 X \rm XX 向量 为 " 年龄 31..35 31..3531..35, 收入 41 k . . 45 k \rm 41k..45k41k..45k , s y s t e m s \rm systemssystems 部门 " ;


未知样本 分类为 s e n i o r \rm seniorsenior ( 高级 ) 类型的概率 : P ( s e n i o r ∣ X ) = P ( X ∣ s e n i o r ) P ( s e n i o r ) P ( X ) \rm P(senior | X) = \cfrac{P(X|senior) P(senior)}{P(X)}P(senior∣X)=

P(X)

P(X∣senior)P(senior)



未知样本 分类为 j u n i o r \rm juniorjunior ( 低级 ) 类型的概率 : P ( j u n i o r ∣ X ) = P ( X ∣ j u n i o r ) P ( j u n i o r ) P ( X ) \rm P(junior | X) = \cfrac{P(X|junior) P(junior)}{P(X)}P(junior∣X)=

P(X)

P(X∣junior)P(junior)



上述两个概率的分母 P ( X ) \rm P(X)P(X) 是常数 , 对比时可以忽略 , 只需要对比分子即可 ;


先验概率 P ( s e n i o r ) = 52 165 \rm P(senior) = \cfrac{52}{165}P(senior)=

165

52


 , P ( j u n i o r ) = 113 165 \rm P(junior) = \cfrac{113}{165}P(junior)=

165

113


 , 52 5252 个人是 s e n i o r \rm seniorsenior 级别 , 113 113113 个人是 j u n i o r \rm juniorjunior 级别 ;


后验概率


① P ( X ∣ s e n i o r ) = P ( 年 龄 31..35 ∣ s e n i o r ) × P ( 收 入 41 k . . 45 k ∣ s e n i o r ) × P ( 部 门 s y s t e m s ∣ s e n i o r ) = 8 52 × 35 52 × 0 52 \rm

P(X|senior)==P(年龄31..35|senior)×P(收入41k..45k|senior)×P(部门systems|senior)852×3552×052

P(X|senior)=P(年龄31..35|senior)×P(收入41k..45k|senior)×P(部门systems|senior)=852×3552×052

P(X∣senior)


 

=

=


 

P(年龄31..35∣senior)×P(收入41k..45k∣senior)×P(部门systems∣senior)

52

8


×

52

35


×

52

0




上述后验概率的结果为 0 \rm 00 , 需要进行 拉普拉斯修正 , 上述式子中的三个概率分子都需要 + 1 +1+1 , 分母都需要 + 2 +2+2 , 分母是分类的个数 , s e n i o r \rm seniorsenior 和 j u n i o r \rm juniorjunior 两个分类 , 因此分母 + 2 +2+2 ;


拉普拉斯修正后的结果 :


P ( X ∣ s e n i o r ) = 8 + 1 52 + 2 × 35 + 1 52 + 2 × 0 + 1 52 + 2 = 9 54 × 36 54 × 1 54 \rm

P(X|senior)==8+152+2×35+152+2×0+152+2954×3654×154

P(X|senior)=8+152+2×35+152+2×0+152+2=954×3654×154

P(X∣senior)


 

=

=


 

52+2

8+1


×

52+2

35+1


×

52+2

0+1


54

9


×

54

36


×

54

1




② P ( X ∣ j u n i o r ) = P ( 年 龄 31..35 ∣ j u n i o r ) × P ( 收 入 41 k . . 45 k ∣ j u n i o r ) × P ( 部 门 s y s t e m s ∣ j u n i o r ) = 23 113 × 44 113 × 4 113 \rm

P(X|junior)==P(年龄31..35|junior)×P(收入41k..45k|junior)×P(部门systems|junior)23113×44113×4113

P(X|junior)=P(年龄31..35|junior)×P(收入41k..45k|junior)×P(部门systems|junior)=23113×44113×4113

P(X∣junior)


 

=

=


 

P(年龄31..35∣junior)×P(收入41k..45k∣junior)×P(部门systems∣junior)

113

23


×

113

44


×

113

4




未知样本 分类为 Y \rm YY 类型的概率 分子 : P ( X ∣ s e n i o r ) P ( s e n i o r ) = 9 54 × 36 54 × 1 54 × 52 165 ≈ 0.0006 \rm P(X|senior) P(senior) = \cfrac{9}{54} \times \cfrac{36}{54} \times \cfrac{1}{54} \times \cfrac{52}{165} \approx 0.0006P(X∣senior)P(senior)=

54

9


×

54

36


×

54

1


×

165

52


≈0.0006


未知样本 分类为 N \rm NN 类型的概率 分子 : P ( X ∣ j u n i o r ) P ( j u n i o r ) = 23 113 × 44 113 × 4 113 × 113 165 ≈ 0.0024 \rm P(X|junior) P(junior) = \cfrac{23}{113} \times \cfrac{44}{113} \times \cfrac{4}{113} \times \cfrac{113}{165} \approx 0.0024P(X∣junior)P(junior)=

113

23


×

113

44


×

113

4


×

165

113


≈0.0024



该样本分类 为 j u n i o r \rm juniorjunior , 是低级员工 ;


上一篇:以人为本--创建最好的开发团队


下一篇:干货 | 解读MySQL 8.0新特性:网络模块优化