大数据分析笔记 - 朴素贝叶斯
- 定义
- 应用
- 连续变量离散化 (Discretization of continuous variable)
- 贝叶斯定理 (Bayes' Theorem)
- 朴素贝叶斯分类器 (Naive Bayes Classifier)
- 可能问题
- 分类器优点
- 分类器缺点
- 分类器诊断
- 选择合适的分类器
定义
朴素贝叶斯是一种基于贝叶斯定理(Bayes’ theorem)的概率分类方法(probabilistic classification method)。朴素贝叶斯分类器假设一个类的特定特征的存在和其他特征的存在与否是无关的。(条件独立假设 conditional independence assumption)
一个合理的分类会认为一个
球形、黄色且重量小于 60 克的对象可能是网球。即使这些特征相互依赖或者依赖于其他特征的存在,朴素贝叶斯分类器也认为所有这些属性独立地贡献了“该对象是一个网球”的概率。
输出包括了类别标签(class label)及其相应的概率分数(probability score)。
应用
- 贝叶斯垃圾邮件过滤
- 欺诈检测 (如汽车保险领域对司机的评级)
连续变量离散化 (Discretization of continuous variable)
连续变量(比如重量)能够按照间隔来分组,从而被转换成一个分类变量。比如对于"收入(income)"这样的属性,可以转换为以下分类变量:
- 低收入:income < $10,000
- 工薪阶级:$10,000 ≤ income < $50,000
- 中产阶级:$50,000 ≤ income < $1000,000
- 高产阶级:income ≥ $1,000,000
贝叶斯定理 (Bayes’ Theorem)
在事件A已经发生的情况下,事件C发生的条件概率用P(C|A)表示,如下图
C是类标签