第四章 机器学习之贝叶斯分类

第四章 机器学习之贝叶斯分类

机器学习的简单介绍

推荐周志华教授的相关链接:点我就行

机器学习的基本流程:
第四章 机器学习之贝叶斯分类

学习方法分类:

  1. 监督学习

特点:使用有标签数据进行学习。
典型场景:分类、回归。

  1. 非监督学习

特点:使用无标签数据进行学习
典型场景:聚类

  1. 半监督学习

特点:使用数据的一部分是有标签的,另一部分没有标签。
典型场景:海量数据分类。

  1. 强化学习

特点:使用无标签但有反馈的数据进行学习。
典型场景:策略推理。

完整的机器学习过程实施:

数据预处理 特征工程 数学建模 结果评估

数据预处理:数据清洗、数据集成、数据采样
特征工程:特征编码、特征选择、特征降维、规范化
数据建模:回归问题、分类问题、聚类问题、其他问题
结果评估:拟合度量、准确率、召回率、F1值、PR拟合曲线等

第四章 机器学习之贝叶斯分类
过拟合和欠拟合对比:

通俗对比:欠拟合学得太少,分得太粗糙;过拟合学得太多太细,拿着放大镜看世界,看到的都是差异看不到相同点。

机器学习总结:

  1. 有监督学习:有x有y(y即label标签)

(1)分类:预测结果是离散值,例如颜色和形状;贝
叶斯、KNN、决策树、SVM
(2)回归:预测结果是连续值(断断续续),例如气
温,体温,血压等;线性回归,逻辑回归

  1. 无监督学习:有x没有y(只有数据,没有标签)

(1)聚类:将相似的数据进行分堆;Kmeans
(2)降维:用于简化数据,减少训练开销;PCA,LDA

分类方法之贝叶斯

条件概率

P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(A∣B)=P(B)P(AB)​
表示事件B发生后A发生的概率。

乘法定理

设P(A)>0,则有P(AB)=P(B|A)P(A)=P(A|B)P(B).设A,B,C为事件,且P(AB)>0,则有:
P ( A B C ) = P ( A ) P ( B ∣ A ) P ( C ∣ A B ) P(ABC)=P(A)P(B|A)P(C|AB) P(ABC)=P(A)P(B∣A)P(C∣AB)

全概率公式

定义:设M为试验E的样本空间,A为E的事件,B1,B2,…,Bn为M的一个划分,且P(Bi)>0(i=1,2,…,n)则
P ( A ) = P ( A ∣ B   1   ) P ( B 1 ) + P ( A ∣ B   2   ) P ( B   2   ) + . . . + P ( A ∣ B   n   ) P ( B   n   ) = ∑ i = 1 n P ( B ) P ( A ∣ B   i   ) P(A)=P(A|B~1~)P(B1)+P(A|B~2~)P(B~2~)+...+P(A|B~n~)P(B~n~)=\sum_{i=1}^{n}{P(B)P(A|B~i~)} P(A)=P(A∣B 1 )P(B1)+P(A∣B 2 )P(B 2 )+...+P(A∣B n )P(B n )=i=1∑n​P(B)P(A∣B i )

贝叶斯公式

定义:设 Ω \Omega Ω为试验E 的样本空间,A 为E的事件,B1, B2,…, Bn为 Ω \Omega Ω的一个划分,且P(A)>0,P(Bi)>0(i=1,2,…,n)则
P ( B   i   ∣ A ) = P ( A ∣ B   i   ) P ( B   i   ) ∑ j = 1 n P ( A ∣ B   j   ) P ( B   j   ) ,          i = 1 , 2 , . . . , n P(B~i~|A)=\frac{P(A|B~i~)P(B~i~)}{\sum_{j=1}^{n}{P(A|B~j~)P(B~j~)}}{,}{\;\;\;\;i=1,2,...,n} P(B i ∣A)=∑j=1n​P(A∣B j )P(B j )P(A∣B i )P(B i )​,i=1,2,...,n

贝叶斯公式的应用:

某电子设备制造厂所用的元件是由三家元 件制造厂提供的根据以往的记录有以下的数据:

元件制造厂 次品率 提供元件的份额
1 0.02 0.15
2 0.01 0.80
3 0.03 0.05

设这三家工厂的产品在仓库中是均匀混合的 且 无区别的标志.
(1)在仓库中随机地取一只元件 求它是次品的概率;
(2)在仓库中随机地取一只元件 若已知取到的是 次品为分析此次品出自何厂 求此次品出由 三家工厂生产的概率分别是多少.

解:设 A 表示 " 取到的是一只次品",Bi表示 " 所取到的产品是由第 i 家工厂提供的".则B1,B2,B3是样本空间 Ω \Omega Ω的一个划分,且P(B1)=0.15,P(B2)=0.80,P(B3)=0.05.
P(A|B1)=0.02,P(A|B2)=0.01,P(A|B3)=0.03
(1)由全概率公式得P(A)=P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+P(A|B3)P(B3)=0.0125.
(2)由贝叶斯公式得
P ( B 1 ∣ A ) = P ( A ∣ B 1 ) P ( B 1 ) P ( A ) = 0.24 P(B1|A)=\frac{P(A|B1)P(B1)}{P(A)}=0.24 P(B1∣A)=P(A)P(A∣B1)P(B1)​=0.24
同理可得P(B2|A)=0.64,P(B3|A)=0.12.
故这只次品来自第二家工厂的可能性最大。

贝叶斯分类

定义:设X是类标号未知的数据样本。设H为某种假定(如数据样本X属于某特定的类C)。对于分类问题,我们希望确定P(H|X),即给定观测数据样本X,假定H成立的概率。贝叶斯定理给出了如下计算P(H|X)的简单有效的方法:
P ( H ∣ X ) = P ( X ∣ H ) P ( H ) P ( X ) P(H|X)=\frac{P(X|H)P(H)}{P(X)} P(H∣X)=P(X)P(X∣H)P(H)​
P(H)是先验概率,或称H的先验概率。
先验概率:根据历史资料统计或主观经验判断所定的概率.

P(H| X )是后验概率,或称条件X下H的后验概率.
后验概率:某个特定条件下具体事物发生的概率.

举例:假设:玩lol中80%是男性,20%是小姐姐;不玩lol中20%是男性,80%是小姐姐,相应的条件概率分布:
P(Y=男性|X=玩lol)=0.8,P(Y=小姐姐|X=玩lol)=0.2
P(Y=男性|X=不玩lol)=0.2,P(Y=小姐姐|X=不玩lol)=0.8
则在已知玩家为男性的情况下,他是lol玩家的概率是多少?(贝叶斯准则),则P(X=玩lol|Y=男性)为X的后验概率( posterior probability ),它是在观察到事件Y发生后得到的。

朴素贝叶斯分类的工作过程如下:

(1) 每 个 数 据 样 本 用 一 个 n 维 特 征 向 量 X= {x1
,x2,……,xn}表示,分别描述对n个属性A1,A2,……,An样本的n个度量。

(2)假定有m个类C1,C2,…,Cm,给定一个未知的数据样本X(即没有类标号),分类器将预测X属于具有最高后验概率(条件X下)的类。也就是说,朴素贝叶斯分类将未知的样本分配给类Ci(1≤i≤m)当且仅当P(Ci|X)> P(Cj|X),对任意的j=1,2,…,m,j≠i。 即最大化P(Ci|X)。

(3)根据贝叶斯定理
由于P(X)对于所有类为常数,只需要P(X|Ci)*P(Ci)最大
即可。
如果Ci类的先验概率未知,则通常假定这些类是等概率
的,即P(C1)=P(C2)=…=P(Cm),因此问题就转换为对
P(X|Ci)的最大化。否则,需要最大化P(X|Ci)*P(Ci)。
注意,类的先验概率可以用P(Ci)=si/s计算,其中si是 类Ci中的训练样本数,而s是训练样本总数。

(4) 给定具有许多属性的样本数据集,计算P(X|Ci)的开销可能非常大。为降低计算P(X|Ci)的开销,可以做类条件独立的朴素假定.
给定样本类别的条件下,假定样本属性值相互条件独立,即在属性间,不存在依赖关系。这样(联合概率分布)
P ( X ∣ C   i   ) = ∏ k = 1 n P ( x   k   ∣ C   i   ) P(X|C~i~)=\prod_{k=1}^{n}{P(x~k~|C~i~)} P(X∣C i )=k=1∏n​P(x k ∣C i )

(5) 对未知样本X分类,也就是对每个类Ci,计算P(X|Ci)*P(Ci)。
样本X被指派到类Ci,当且仅当P(Ci|X)> P(Cj|X), 1≤j≤m , j≠i , 换言之 , X 被 指 派 到 其P(X|Ci)*P(Ci)最大的类。

应用例:“打网球”的决定
第四章 机器学习之贝叶斯分类
统计结果:
第四章 机器学习之贝叶斯分类

对下面的情况做出决策:
第四章 机器学习之贝叶斯分类

未知样本:E=E1 ⋂ \bigcap ⋂E2 ⋂ \bigcap ⋂E3 ⋂ \bigcap ⋂E4
分类:P(D=no|E)>P(D=yes|E)
贝叶斯公式:P(D|E)= P ( D E ) P ( E ) = P ( E ∣ D ) P ( D ) P ( E ) \frac{P(DE)}{P(E)}=\frac{P(E|D)P(D)}{P(E)} P(E)P(DE)​=P(E)P(E∣D)P(D)​
第四章 机器学习之贝叶斯分类
第四章 机器学习之贝叶斯分类

贝叶斯分类优缺点

优点:

• 可以和决策树、神经网络分类算法相媲美,能运用于大型数据库
• 方法简单,分类准确率高,速度快,所需估计的参数少,对于缺失数据不敏感

缺点:

• 假设一个属性对分类的影响独立于其他的属性值,这往往不成立(即实际上难以满足的相互独立)
• 需要知道先验概率

练习

  1. 判断下面对错。

1.分类任务是预测连续值。(错 )
2.回归任务是预测连续值。 ( 对)
3.聚类是有标签学习。 (错 )
4.降维可用于简化数据。( 对)

  1. 有一批同一型号的产品,已知其中由一厂生产的占 30% , 二厂生产的占 50% , 三厂生产的占 20%, 又知这三个厂的产品次品率分别为2% , 1%, 1%,问从这批产品中任取一件是次品的概率是多少?

解:设事件 A 为“任取一件为次品”,
事件 B i 为" 任取一件为i 厂的产品" ,i = 1,2,3.
B1 ⋃ \bigcup ⋃ B2 ⋃ \bigcup ⋃ B3 = Ω \Omega Ω,BiBj= ∅ \empty ∅,i,j=1,2,3
由全概率公式得:
P(A)=P(B1)P(A|B1)+P(B2)P(A|B2)+P(B3)P(A|B3)
P(B1)=0.3,P(B2)=0.5,P(B3)=0.2
P(A|B1)=0.02,P(A|B2)=0.01,P(A|B3)=0.01,
故P(A)=0.013.

  1. 设某公路上经过的货车与客车的数量之比为2:1,货车中途停车修理的概率为0.02,客车为0.01,现有一辆汽车中途停车修理,求该汽车是货车的概率。

解:设事件A为停车修理,事件B1为货车,B2为客车
则P(B1)=2/3,P(B2)=1/3,P(A|B1)=0.02,P(A|B2)=0.01,
则 P ( B 1 ∣ A ) = P ( B 1 ) P ( A ∣ B 1 ) P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) = 0.8 P(B1|A)=\frac{P(B1)P(A|B1)}{P(A|B1)P(B1)+P(A|B2)P(B2)}=0.8 P(B1∣A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)P(B1)P(A∣B1)​=0.8

上一篇:Activity四种启动模式,写得太好了


下一篇:Excel如何批量将中文名字翻译为英文