【数据挖掘】数据挖掘总结 ( 贝叶斯分类器 ) ★

文章目录

一、 贝叶斯分类器

二、 贝叶斯分类器处理多属性数据集方案



参考博客 :


【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )

【数据挖掘】贝叶斯公式应用 拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )

【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )

【数据挖掘】朴素贝叶斯分类器 ( 多属性概率计算 | 朴素贝叶斯分类案例分析 )

【数据挖掘】拉普拉斯修正 ( 判别模型 | 概率模型 | 贝叶斯分类 | 拉普拉斯修正 | 朴素贝叶斯分类应用场景 | 朴素贝叶斯优缺点 )

【数据挖掘】贝叶斯信念网络 ( 马尔科夫假设 | 结构 | 有向无环图 | 参数 | 条件概率表 | 案例分析 )





一、 贝叶斯分类器


1 . 贝叶斯分类器 :


① 原理 : 基于统计学方法贝叶斯 ( Bayes ) 理论 , 预测样本某个属性的分类概率 ;


② 性能分析 : 朴素贝叶斯 分类器 , 与 决策树 , 神经网络 分类器 性能基本相同 , 性能指标处于同一数量级 , 适合大数据处理 ;



2 . 贝叶斯分类器的类型 :


① 朴素贝叶斯分类器 : 样本属性都是独立的 ;


② 贝叶斯信念网络 : 样本属性间有依赖关系的情况 ;



3 . 正向概率 与 逆向概率 :


① 正向概率 : 盒子中有 N \rm NN 个白球 , M \rm MM 个黑球 , 摸出黑球的概率是 M N + M \rm \cfrac{M}{N + M}

N+M

M


 ;


② 逆向概率 : 事先不知道盒子中白球和黑球的数量 , 任意摸出 X \rm XX 个球 , 通过观察这些球的颜色 , 推测盒子中有多少白球 , 多少黑球 ;



4 . 贝叶斯公式 : 有两个事件 , 事件 A AA , 和事件 B BB ;



公式 1


P ( B ∣ A ) = P ( A ∣ B ) × P ( B ) P ( A ∣ B ) × P ( B ) + P ( A ∣ ∼ B ) × P ( ∼ B ) \rm P ( B | A ) = \frac{P ( A | B ) \times P ( B ) }{ P ( A | B ) \times P ( B ) + P ( A | \sim B ) \times P ( \sim B ) }

P(B∣A)=

P(A∣B)×P(B)+P(A∣∼B)×P(∼B)

P(A∣B)×P(B)



简写形式 :


公式 2


P ( B ∣ A ) = P ( A B ) P ( A ) \rm P ( B | A ) = \frac{P ( AB )}{P ( A )}

P(B∣A)=

P(A)

P(AB)




公式 3


P ( B ∣ A ) = P ( B ) × P ( A ∣ B ) P ( A ) \rm P(B|A) = \frac{P(B) \times P(A|B)}{P(A) }

P(B∣A)=

P(A)

P(B)×P(A∣B)



① 事件 A AA 发生的概率 : 表示为 P ( A ) \rm P(A)P(A) ;


② 事件 B BB 发生的概率 : 表示为 P ( B ) \rm P(B)P(B) ;


③ A B A BAB两个事件同时发生的概率 : 表示为 P ( A , B ) \rm P(A,B)P(A,B) ;


④ 事件 A AA 发生时 B BB 发生的概率 : 表示为 P ( B ∣ A ) \rm P(B | A)P(B∣A) ;


⑤ 事件 B BB 发生时 A AA 发生的概率 : 表示为 P ( A ∣ B ) \rm P(A | B)P(A∣B) ;






二、 贝叶斯分类器处理多属性数据集方案


1 . 多属性特征 : 如果要处理的样本数据的特征有 n nn 个属性 , 其取值 { X 1 , X 2 , ⋯   , X n } \rm \{X_1 , X_2 , \cdots , X_n\}{X

1


,X

2


,⋯,X

n


} 组成了向量 X \rm XX ;



2 . 后验概率 : 计算最终分类为 C 1 \rm C_1C

1


 时 , 多个属性的取值为 X \rm XX 向量的概率 , 即 P ( X ∣ C 1 ) \rm P(X | C_1)P(X∣C

1


)



3 . 朴素贝叶斯由来 : 朴素地认为这些属性之间不存在依赖关系 , 就可以使用乘法法则计算这些属性取值同时发生的概率 ;



4 . 计算单个分类概率 : 分类为 C 1 \rm C_1C

1


 时 n \rm nn 个属性每个取值取值概率 :


当最终分类为 C 1 \rm C_1C

1


 时 , 第 1 11 个属性取值 X 1 \rm X_1X

1


 的概率为 P ( X 1 ∣ C 1 ) \rm P(X_1 | C_1)P(X

1


∣C

1


) ;


当最终分类为 C 1 \rm C_1C

1


 时 , 第 2 22 个属性取值 X 2 \rm X_2X

2


 的概率为 P ( X 2 ∣ C 1 ) \rm P(X_2 | C_1)P(X

2


∣C

1


) ;


⋮ \vdots


当最终分类为 C 1 \rm C_1C

1


 时 , 第 n \rm nn 个属性取值 X n \rm X_nX

n


 的概率为 P ( X n ∣ C 1 ) \rm P(X_n | C_1)P(X

n


∣C

1


) ;


最终分类为 C 1 \rm C_1C

1


 时 , n \rm nn 个属性取值 X \rm XX 向量的概率 :


P ( X ∣ C 1 ) = ∏ k = 1 n P ( X k ∣ C 1 ) \rm P(X|C_1) = \prod_{k=1}^n P( X_k | C_1 )

P(X∣C

1


)=

k=1

n


P(X

k


∣C

1


)



5 . 多属性分类概率总结 : 分类为 C i \rm C_iC

i


 时 n \rm nn 个属性取值 X \rm XX 向量的概率为 :


P ( X ∣ C i ) = ∏ k = 1 n P ( X k ∣ C i ) \rm P(X|C_i) = \prod_{k=1}^n P( X_k | C_i )

P(X∣C

i


)=

k=1

n


P(X

k


∣C

i


)



6 . 上述公式中的分类属性 P ( X k ∣ C i ) \rm P( X_k | C_i )P(X

k


∣C

i


) 计算方式 : 如果第 k \rm kk 个属性的取值是离散的 , 即分类属性 , 那么通过以下公式计算 :


P ( X k ∣ C i ) = S i k S i \rm P( X_k | C_i ) = \frac{S_{ik}}{S_i}

P(X

k


∣C

i


)=

S

i


S

ik




S i \rm S_iS

i


 是分类为 C i \rm C_iC

i


 类型的数据集样本个数 ;


S i k \rm S_{ik}S

ik


 是被分类成 C i \rm C_iC

i


 类型的样本中 , 并且第 k \rm kk 个值是 X k \rm X_kX

k


 的样本个数 ;



7 . 样本分类 :



① 样本 : 给出未知属性类型样本 , 其 n \rm nn 个已知的属性取值为 X \rm XX 向量 ;


② 分类个数 : 其根据分类属性可能分为 m \rm mm 类 ;


③ 分类 : 求其取值为 X \rm XX 向量时 , 分类为 C i \rm C_iC

i


 的概率 , 哪个概率最大 , 其被分为哪个 C i \rm C_iC

i


 类型 , 表示为


P ( C i ∣ X ) = P ( X ∣ C i ) P ( C i ) P ( X ) \rm P(C_i | X) = \frac{P(X | C_i) P(C_i)}{P(X)}

P(C

i


∣X)=

P(X)

P(X∣C

i


)P(C

i


)



④ 后验概率 : 多属性取值为 X XX 向量时 , 分类为 C i \rm C_iC

i


 的概率进行比较 , 分母都是 P ( X ) \rm P(X)P(X) , 是一个常数 , 可以不考虑这种情况 , 只比较 P ( X ∣ C i ) P ( C i ) \rm P(X | C_i) P(C_i)P(X∣C

i


)P(C

i


) 值的大小 , P ( X ∣ C i ) P ( C i ) \rm P(X | C_i) P(C_i)P(X∣C

i


)P(C

i


) 值最大的情况 , 就是分类的目标分类 C i \rm C_iC

i


 , 也就是后验概率 ;


上一篇:C++实现Http Post请求


下一篇:el表达式便利map集合