大数据分析笔记 (5.2) - 朴素贝叶斯分类器 (Naive Bayers Classifer)

大数据分析笔记 - 朴素贝叶斯

定义

朴素贝叶斯是一种基于贝叶斯定理(Bayes’ theorem)的概率分类方法(probabilistic classification method)。朴素贝叶斯分类器假设一个类的特定特征的存在和其他特征的存在与否是无关的。(条件独立假设 conditional independence assumption)
一个合理的分类会认为一个
球形、黄色且重量小于 60 克的对象可能是网球。即使这些特征相互依赖或者依赖于其他特征的存在,朴素贝叶斯分类器也认为所有这些属性独立地贡献了“该对象是一个网球”的概率。
输出包括了类别标签(class label)及其相应的概率分数(probability score)。

应用

  • 贝叶斯垃圾邮件过滤
  • 欺诈检测 (如汽车保险领域对司机的评级)

连续变量离散化 (Discretization of continuous variable)

连续变量(比如重量)能够按照间隔来分组,从而被转换成一个分类变量。比如对于"收入(income)"这样的属性,可以转换为以下分类变量:

  • 低收入:income < $10,000
  • 工薪阶级:$10,000 ≤ income < $50,000
  • 中产阶级:$50,000 ≤ income < $1000,000
  • 高产阶级:income ≥ $1,000,000

贝叶斯定理 (Bayes’ Theorem)

在事件A已经发生的情况下,事件C发生的条件概率用P(C|A)表示,如下图
大数据分析笔记 (5.2) - 朴素贝叶斯分类器 (Naive Bayers Classifer)
C是类标签

上一篇:大规模数据处理Apache Spark开发


下一篇:uva1590 IP网络