【datawhale-集成学习】 task05 基本的分类模型

来吧鸢尾花~

【datawhale-集成学习】 task05 基本的分类模型

选择度量模型性能的指标

  • 真阳性TP:预测值和真实值都为正例;
  • 真阴性TN:预测值与真实值都为正例;
  • 假阳性FP:预测值为正,实际值为负;
  • 假阴性FN:预测值为负,实际值为正;

【datawhale-集成学习】 task05 基本的分类模型

分类模型的指标

准确率

分类正确的样本数占总样本的比例
A C C = T P + T N F P + F N + T P + T N ACC = \frac{TP+TN}{FP+FN+TP+TN} ACC=FP+FN+TP+TNTP+TN​

精度

预测为正且分类正确的样本占预测值为正的比例
P R E = T P T P + F P PRE = \frac{TP}{TP+FP} PRE=TP+FPTP​

召回率

预测为正且分类正确的样本占类别为正的比例
R E C = T P T P + F N REC = \frac{TP}{TP+FN} REC=TP+FNTP​

F1值

F 1 = 2 P R E × R E C P R E + R E C F1 = 2\frac{PRE\times REC}{PRE + REC} F1=2PRE+RECPRE×REC​

ROC曲线

以假阳率为横轴,真阳率为纵轴画出来的曲线,曲线下方面积越大越好

选择具体的模型并进行训练

逻辑回归logistic regression

在回归问题中,因变量是连续的 --> 需要预测 E ( Y ∣ X ) E(Y|X) E(Y∣X)是一个连续的实数 real number?
在分类问题中,我们通过已知X的信息预测Y的类别,往往是一个离散集合中的某个元素:

  • 患病/不患病
  • 是猫/是狗

能否用线性回归解决分类问题?
答:可以,但不好。
假设需要用balance和income预测是否信用卡违约:

  • 我们假设有一个穷人,他的balance和income都很小 --> 有可能会导致他default的值为负
    • 负 没有任何意义
  • 多类的分类问题,那么用0.5为界限划分分类就不可用了,怎么找到一个界限去衡量多分类?

(逻辑回归,就是把线性回归的结果压缩一下使得它的值在[0:1]区间内,使得他变成一个发生xx事件的概率)

补:手推公式照片

【datawhale-集成学习】 task05 基本的分类模型

基于概率的分类模型

(1) 线性判别分析

  • 一个比较久远的算法

基于贝叶斯公式对线性判别分析的理解

贝叶斯公式推导过程:
(补图)

基于降维分类对线性判别分析的理解

基于数据进行分类时,一个很自然的想法是:将高维的数据降维至一维,然后使用某个阈值
将各个类别分开。

【datawhale-集成学习】 task05 基本的分类模型

  • 数据维度 – 二维
  • 我们把数据降维至一维,然后用阈值分类

(这似乎是一个很好的想法,我们总希望降维后的数据同一个类别自身内部方差小,不同类别之间方差要尽可能大)

类内方差小,类间方差大

  • 同一个类别的数据应该更加相似, 因此方差小

  • 不同类别的数据之间应该很不相似,这样才能更容易对数据进行分类。

  • 计算机语言叫“松耦合,高内聚”

【datawhale-集成学习】 task05 基本的分类模型

(2) 朴素贝叶斯

在线性判别分析中,我们假设每种分类类别下的特征遵循同一个协方差矩阵,每两个特征之间是 存在协方差的,因此在线性判别分析中各种特征是不是独立的。

朴素贝叶斯算法对线性判 别分析作进一步的模型简化,它将线性判别分析中的协方差矩阵中的协方差全部变成0,只保留各 自特征的方差,也就是朴素贝叶斯假设各个特征之间是不相关的。

偏差-方差理论中,模型的简化 ==> 方差的减少
因此朴素贝叶斯也不例外,它比线性判别分析模型 方差小,偏差大。

实际中朴素贝叶斯的案例非常多,甚至比线性判别分析多

  • 新闻分类
  • 垃圾邮件分类

【datawhale-集成学习】 task05 基本的分类模型

决策树

上一篇:目标检测网络---评价指标


下一篇:准确率、精确率、召回率、F-Score