【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★

2023-10-07 13:30:04

文章目录

一、贝叶斯分类器分类的流程

二、拉普拉斯修正

三、贝叶斯分类器示例2

参考博客 :

【数据挖掘】贝叶斯公式应用拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )

【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )

【数据挖掘】朴素贝叶斯分类器 ( 多属性概率计算 | 朴素贝叶斯分类案例分析 )

一、贝叶斯分类器分类的流程

已知条件 :

已知样本 : 已知若干个样本

未知样本 : 给定 1 11 个未知样本 , 其有 4 44 个属性组成向量 X \rm XX , 样本的分类有两种 , Y \rm YY 和 N \rm NN ; ( Yes / No )

分类步骤 :

计算两个概率 , 即

① 样本取值为 X \rm XX 向量时 , 分类为 Y \rm YY 的概率 , 公式为 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) \rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}P(Y∣X)=

P(X)

P(X∣Y)P(Y)

, 其中 P ( X ∣ Y ) P ( Y ) \rm P(X | Y) P(Y)P(X∣Y)P(Y) 含义是 : 样本分类 Y \rm YY 的概率 P ( Y ) \rm P(Y)P(Y) , 乘以样本分类为 Y \rm YY 前提下样本取值 X \rm XX 时的概率 P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) , 是 P ( X Y ) \rm P(XY)P(XY) 共同发生的概率 ;

② 样本取值为 X \rm XX 向量时 , 分类为 N \rm NN 的概率 , 公式为 P ( N ∣ X ) = P ( X ∣ N ) P ( N ) P ( X ) \rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}P(N∣X)=

P(X)

P(X∣N)P(N)

, 其中 P ( X ∣ N ) P ( N ) \rm P(X | N) P(N)P(X∣N)P(N) 含义是 : 样本分类为 N \rm NN 的概率 P ( N ) \rm P(N)P(N) , 乘以样本取值 N \rm NN 时的概率 P ( X ∣ N ) \rm P(X | N)P(X∣N) , 是 P ( X N ) \rm P(XN)P(XN) 共同发生的概率 ;

上述两个概率 , 哪个概率高 , 就将该样本分为哪个分类 ;

先验概率 : P ( Y ) \rm P(Y)P(Y) , P ( N ) \rm P(N)P(N) ;

后验概率 : P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) , P ( X ∣ N ) \rm P(X | N)P(X∣N) ;

上述两个公式 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) P ( X ) \rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}P(Y∣X)=

P(X)

P(X∣Y)P(Y)

和 P ( N ∣ X ) = P ( X ∣ N ) P ( N ) P ( X ) \rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}P(N∣X)=

P(X)

P(X∣N)P(N)

, 分母都是 P ( X ) \rm P(X)P(X) , 只比较分子即可 , 其中先验概率 P ( Y ) \rm P(Y)P(Y) , P ( N ) \rm P(N)P(N) 很容易求得 , 重点是求两个后验概率 P ( X ∣ Y ) P ( Y ) \rm P(X | Y) P(Y)P(X∣Y)P(Y) , P ( X ∣ N ) P ( N ) \rm P(X | N) P(N)P(X∣N)P(N) ;

后验概率 P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) 求法 : 针对 X \rm XX 向量中 4 44 个分量属性的取值 , 当样品类型是 Y \rm YY 时 , 分量 1 11 取值为该分量属性时的概率 , 同理计算出 4 44 个分量属性对应的 4 44 个概率 , 最后将四个概率相乘 ;

后验概率 P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) 再乘以先验概率 P ( Y ) \rm P(Y)P(Y) , 就是最终的未知样本分类为 Y \rm YY 类型的概率 ;

最终对比样本 , ① 未知样本分类为 Y \rm YY 类型的概率 , ② 未知样本分类为 N \rm NN 类型的概率 , 哪个概率大 , 就分类为哪个类型 ;

二、拉普拉斯修正

在计算后验概率 P ( X ∣ Y ) \rm P(X | Y)P(X∣Y) 时 , 需要计算出当样品类型是 Y \rm YY 时 , X \rm XX 向量的分量 1 11 取值为该分量属性时的概率 , 同理计算出 4 44 个分量属性对应的 4 44 个概率 , 最后将四个概率相乘 ;

如果上述 4 44 个相乘的概率其中有一个是 0 00 , 那么最终结果肯定就是 0 00 , 这里需要避免这种情况 , 引入拉普拉斯修正 ;

直接上栗子 , 不扯公式 ;

如果计算时 , 9 99 个样本是购买商品的 , 但年龄都大于 30 3030 , 计算过程如下 ;

P ( 年龄小于 30 ∣ Y ) = 0 9 \rm P( 年龄小于 30 | Y) = \cfrac{0}{9}P(年龄小于30∣Y)=

拉普拉斯修正就是分子加 1 11 , 分母加上样本类型个数 2 22 ; ( 样本有两个类型 , Y \rm YY 购买商品 , N \rm NN 不购买商品 ) ;

P ( 年龄小于 30 ∣ Y ) = 0 + 1 9 + 2 = 1 11 \rm P( 年龄小于 30 | Y) = \cfrac{0 + 1}{9 + 2} = \cfrac{1}{11}P(年龄小于30∣Y)=

9+2

0+1

注意是所有的分量的概率都要进行拉普拉斯修正 , 不能只修正这一个 ;

三、贝叶斯分类器示例2

分类需求 : 根据年龄 , 收入水平 , 级别 , 部门 , 人数 , 预测 " 年龄 31..35 31..3531..35, 收入 41 k . . 45 k \rm 41k..45k41k..45k , s y s t e m s \rm systemssystems 部门 " 的员工级别 ;

年龄收入级别部门人数

31..35 31..3531..35 46 k . . 50 k \rm 46k..50k46k..50k s e n i o r \rm seniorsenior s a l e s \rm salessales 30 3030

26..30 26..3026..30 26 k . . 30 k \rm 26k..30k26k..30k j u n i o r \rm juniorjunior s a l e s \rm salessales 40 \rm 4040

31..35 31..3531..35 31 k . . 35 k \rm 31k..35k31k..35k j u n i o r \rm juniorjunior s a l e s \rm salessales 40 \rm 4040

21..25 21..2521..25 46 k . . 50 k \rm 46k..50k46k..50k j u n i o r \rm juniorjunior s y s t e m s \rm systemssystems 20 \rm 2020

31..35 31..3531..35 66 k . . 70 k \rm 66k..70k66k..70k s e n i o r \rm seniorsenior s y s t e m s \rm systemssystems 5 \rm 55

26..30 26..3026..30 46 k . . 50 k \rm 46k..50k46k..50k j u n i o r \rm juniorjunior s y s t e m s \rm systemssystems 3 \rm 33

41..45 41..4541..45 66 k . . 45 k \rm 66k..45k66k..45k s e n i o r \rm seniorsenior s y s t e m s \rm systemssystems 3 \rm 33

36..40 36..4036..40 46 k . . 50 k \rm 46k..50k46k..50k s e n i o r \rm seniorsenior m a r k e t i n g \rm marketingmarketing 10 \rm 1010

31..35 31..3531..35 41 k . . 45 k \rm 41k..45k41k..45k j u n i o r \rm juniorjunior m a r k e t i n g \rm marketingmarketing 4 \rm 44

46..50 46..5046..50 36 k . . 40 k \rm 36k..40k36k..40k s e n i o r \rm seniorsenior s e c r e t a r y \rm secretarysecretary 4 \rm 44

26..30 26..3026..30 26 k . . 30 k \rm 26k..30k26k..30k j u n i o r \rm juniorjunior s e c r e t a r y \rm secretarysecretary 6 \rm 66

未知样本取值 X \rm XX 向量为 " 年龄 31..35 31..3531..35, 收入 41 k . . 45 k \rm 41k..45k41k..45k , s y s t e m s \rm systemssystems 部门 " ;

未知样本分类为 s e n i o r \rm seniorsenior ( 高级 ) 类型的概率 : P ( s e n i o r ∣ X ) = P ( X ∣ s e n i o r ) P ( s e n i o r ) P ( X ) \rm P(senior | X) = \cfrac{P(X|senior) P(senior)}{P(X)}P(senior∣X)=

P(X)

P(X∣senior)P(senior)

未知样本分类为 j u n i o r \rm juniorjunior ( 低级 ) 类型的概率 : P ( j u n i o r ∣ X ) = P ( X ∣ j u n i o r ) P ( j u n i o r ) P ( X ) \rm P(junior | X) = \cfrac{P(X|junior) P(junior)}{P(X)}P(junior∣X)=

P(X)

P(X∣junior)P(junior)

上述两个概率的分母 P ( X ) \rm P(X)P(X) 是常数 , 对比时可以忽略 , 只需要对比分子即可 ;

先验概率 P ( s e n i o r ) = 52 165 \rm P(senior) = \cfrac{52}{165}P(senior)=

165

, P ( j u n i o r ) = 113 165 \rm P(junior) = \cfrac{113}{165}P(junior)=

165

113

, 52 5252 个人是 s e n i o r \rm seniorsenior 级别 , 113 113113 个人是 j u n i o r \rm juniorjunior 级别 ;

后验概率

① P ( X ∣ s e n i o r ) = P ( 年龄 31..35 ∣ s e n i o r ) × P ( 收入 41 k . . 45 k ∣ s e n i o r ) × P ( 部门 s y s t e m s ∣ s e n i o r ) = 8 52 × 35 52 × 0 52 \rm

P(X|senior)==P(年龄31..35|senior)×P(收入41k..45k|senior)×P(部门systems|senior)852×3552×052

P(X|senior)=P(年龄31..35|senior)×P(收入41k..45k|senior)×P(部门systems|senior)=852×3552×052

P(X∣senior)

P(年龄31..35∣senior)×P(收入41k..45k∣senior)×P(部门systems∣senior)

上述后验概率的结果为 0 \rm 00 , 需要进行拉普拉斯修正 , 上述式子中的三个概率分子都需要 + 1 +1+1 , 分母都需要 + 2 +2+2 , 分母是分类的个数 , s e n i o r \rm seniorsenior 和 j u n i o r \rm juniorjunior 两个分类 , 因此分母 + 2 +2+2 ;

拉普拉斯修正后的结果 :

P ( X ∣ s e n i o r ) = 8 + 1 52 + 2 × 35 + 1 52 + 2 × 0 + 1 52 + 2 = 9 54 × 36 54 × 1 54 \rm

P(X|senior)==8+152+2×35+152+2×0+152+2954×3654×154

P(X|senior)=8+152+2×35+152+2×0+152+2=954×3654×154

P(X∣senior)

52+2

8+1

52+2

35+1

52+2

0+1

② P ( X ∣ j u n i o r ) = P ( 年龄 31..35 ∣ j u n i o r ) × P ( 收入 41 k . . 45 k ∣ j u n i o r ) × P ( 部门 s y s t e m s ∣ j u n i o r ) = 23 113 × 44 113 × 4 113 \rm

P(X|junior)==P(年龄31..35|junior)×P(收入41k..45k|junior)×P(部门systems|junior)23113×44113×4113

P(X|junior)=P(年龄31..35|junior)×P(收入41k..45k|junior)×P(部门systems|junior)=23113×44113×4113

P(X∣junior)

P(年龄31..35∣junior)×P(收入41k..45k∣junior)×P(部门systems∣junior)

113

未知样本分类为 Y \rm YY 类型的概率分子 : P ( X ∣ s e n i o r ) P ( s e n i o r ) = 9 54 × 36 54 × 1 54 × 52 165 ≈ 0.0006 \rm P(X|senior) P(senior) = \cfrac{9}{54} \times \cfrac{36}{54} \times \cfrac{1}{54} \times \cfrac{52}{165} \approx 0.0006P(X∣senior)P(senior)=

165

≈0.0006

未知样本分类为 N \rm NN 类型的概率分子 : P ( X ∣ j u n i o r ) P ( j u n i o r ) = 23 113 × 44 113 × 4 113 × 113 165 ≈ 0.0024 \rm P(X|junior) P(junior) = \cfrac{23}{113} \times \cfrac{44}{113} \times \cfrac{4}{113} \times \cfrac{113}{165} \approx 0.0024P(X∣junior)P(junior)=

113

165

113

≈0.0024

该样本分类为 j u n i o r \rm juniorjunior , 是低级员工 ;

码农公寓

相关文章