贝叶斯决策_bayes(新闻分类)

1、简单例子引入

2、先验概率

3、后验概率

4、最小错误率决策

5、最小风险贝叶斯决策

1. 贝叶斯公式

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

2简单例子

正常情况下,我们可以快速的将街上的人分成男和女两类。这里街上的人就是我们观测到的样本,将每一个人分成男、女两类就是我们做决策的过程。上面的问题就是一个分类问题。

分类可以看作是一种决策,即我们根据观测对样本做出应归属哪一类的决策。

假定我手里握着一枚硬币,让你猜是多少钱的硬币,这其实就可以看作一个分类决策的问题:你需要从各种可能的硬币中做出一个决策。硬币假设面值有1角、5角、1块。

如果事先告知这枚硬币只可能是一角或者五角,那么问题就是一个两分类问题。

3.先验概率

贝叶斯决策_bayes(新闻分类)

先验概率的一些问题

贝叶斯决策_bayes(新闻分类)

4.后验概率

贝叶斯决策_bayes(新闻分类)

5.决策

贝叶斯决策_bayes(新闻分类)

7.例子

例 假设在某个局部地区细胞识别中正常和异常两类的先验概率分别为,

正常状态

贝叶斯决策_bayes(新闻分类)

现有一待识别的细胞,其观察值为x,从类条件概率密度分布曲线上查得

贝叶斯决策_bayes(新闻分类)

试对该细胞进行分类。

解:利用贝叶斯公式,分别计算两类后验概率

贝叶斯决策_bayes(新闻分类)

8.最小错误率决策

根据贝叶斯决策规则,因为

P(w1 | x) = 0.818 > P(w2 | x) = 0.182

所以,将 x 归类于正常状态。

假设有某个观测值 x,

•若 x 使得 P(w1|x) > P(w2|x),则我们自然会做出真实类别是 w1 的判决

•若 x 使 得 P(w2|x) > P(w1|x),则我们更倾向于选择w2

据此规则进行一次判决的错误概率:

显然,对于某个给定的x,采用上述规则可以使错误概率最小。

问题是,这一规则能够使得平均错误概率最小吗?

平均错误概率:

贝叶斯决策_bayes(新闻分类)

如果对于每个 x 我们都能保证P(error|x)尽量小,则上述积分值也必然最小

贝叶斯决策_bayes(新闻分类)

9.最小风险贝叶斯决策

前面给出的是在最小错误率的原则下得到的决策规则。但是,根据情况的不同,我们关心的有可能不仅仅是错误率,而是错误所带来的损失。把五角错认成一角与一角错认成五角所带来的损失是不同的。

在癌细胞识别中,如果将正常细胞误判为癌细胞,会给病人带来精神上的负担和不必要的进一步检查,这是一种损失或风险;反之如果把癌细胞细胞误判为正常细胞,则损失更大,这可能会导致病人丧失宝贵的早期发现癌症的机会,甚至会造成影响病人生命的严重后果。

将这两种错误一视同仁来对待,在很多情况下是不恰当的。

所谓最小风险贝叶斯决策,就是考虑各种错误造成损失不同时的一种最优决策。

基本思想:

使错误率最小并不一定是一个普遍适用的最佳选择。

癌细胞分类

两种错误:

癌细胞 –>正常细胞

正常细胞 –>癌细胞

两种错误的代价(损失)不同

宁可扩大一些总的错误率,但也要使总的损失减少。

引进一个与损失有关联的,更为广泛的概念——风险。

在作出决策时,要考虑所承担的风险。

基于最小风险的贝叶斯决策规则正是为了体现这一点而产生的。

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

10.贝叶斯决策理论的分类方法

优点:数据较少仍然有效,可以处理多类别问题。

缺点:对于输入数据的准备方式较为敏感。

应用:文档分类的常用算法。

代码实例

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

问题分析:

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

实例说明

贝叶斯决策_bayes(新闻分类)

统一文本形式

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

代码实现

贝叶斯决策_bayes(新闻分类)

构建词汇表-词典

贝叶斯决策_bayes(新闻分类)

词向量—词集、词袋模型

贝叶斯决策_bayes(新闻分类)

类概率

贝叶斯决策_bayes(新闻分类)

类条件概率密度

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

判断:

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

存在问题

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

类条件概率及先验概率结果

贝叶斯决策_bayes(新闻分类)

结果

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

实例——使用贝叶斯方法对邮件进行分类

贝叶斯决策_bayes(新闻分类)

正常数据

贝叶斯决策_bayes(新闻分类)

垃圾邮件数据

贝叶斯决策_bayes(新闻分类)

分类步骤

贝叶斯决策_bayes(新闻分类)

垃圾邮件分类

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

贝叶斯决策_bayes(新闻分类)

上一篇:Asp.Net连接Mysql报错Out of sync with server


下一篇:gulp 实现 js、css,img 合并和压缩