来吧鸢尾花~
选择度量模型性能的指标
- 真阳性TP:预测值和真实值都为正例;
- 真阴性TN:预测值与真实值都为正例;
- 假阳性FP:预测值为正,实际值为负;
- 假阴性FN:预测值为负,实际值为正;
分类模型的指标
准确率
分类正确的样本数占总样本的比例
A
C
C
=
T
P
+
T
N
F
P
+
F
N
+
T
P
+
T
N
ACC = \frac{TP+TN}{FP+FN+TP+TN}
ACC=FP+FN+TP+TNTP+TN
精度
预测为正且分类正确的样本占预测值为正的比例
P
R
E
=
T
P
T
P
+
F
P
PRE = \frac{TP}{TP+FP}
PRE=TP+FPTP
召回率
预测为正且分类正确的样本占类别为正的比例
R
E
C
=
T
P
T
P
+
F
N
REC = \frac{TP}{TP+FN}
REC=TP+FNTP
F1值
F 1 = 2 P R E × R E C P R E + R E C F1 = 2\frac{PRE\times REC}{PRE + REC} F1=2PRE+RECPRE×REC
ROC曲线
以假阳率为横轴,真阳率为纵轴画出来的曲线,曲线下方面积越大越好
选择具体的模型并进行训练
逻辑回归logistic regression
在回归问题中,因变量是连续的 --> 需要预测
E
(
Y
∣
X
)
E(Y|X)
E(Y∣X)是一个连续的实数 real number?
在分类问题中,我们通过已知X的信息预测Y的类别,往往是一个离散集合中的某个元素:
- 患病/不患病
- 是猫/是狗
能否用线性回归解决分类问题?
答:可以,但不好。
假设需要用balance和income预测是否信用卡违约:
- 我们假设有一个穷人,他的balance和income都很小 --> 有可能会导致他default的值为负
- 负 没有任何意义
- 多类的分类问题,那么用0.5为界限划分分类就不可用了,怎么找到一个界限去衡量多分类?
(逻辑回归,就是把线性回归的结果压缩一下使得它的值在[0:1]区间内,使得他变成一个发生xx事件的概率)
补:手推公式照片
基于概率的分类模型
(1) 线性判别分析
- 一个比较久远的算法
基于贝叶斯公式对线性判别分析的理解
贝叶斯公式推导过程:
(补图)
基于降维分类对线性判别分析的理解
基于数据进行分类时,一个很自然的想法是:将高维的数据降维至一维,然后使用某个阈值
将各个类别分开。
- 数据维度 – 二维
- 我们把数据降维至一维,然后用阈值分类
(这似乎是一个很好的想法,我们总希望降维后的数据同一个类别自身内部方差小,不同类别之间方差要尽可能大)
类内方差小,类间方差大
-
同一个类别的数据应该更加相似, 因此方差小
-
不同类别的数据之间应该很不相似,这样才能更容易对数据进行分类。
-
计算机语言叫“松耦合,高内聚”
(2) 朴素贝叶斯
在线性判别分析中,我们假设每种分类类别下的特征遵循同一个协方差矩阵,每两个特征之间是 存在协方差的,因此在线性判别分析中各种特征是不是独立的。
朴素贝叶斯算法对线性判 别分析作进一步的模型简化,它将线性判别分析中的协方差矩阵中的协方差全部变成0,只保留各 自特征的方差,也就是朴素贝叶斯假设各个特征之间是不相关的。
偏差-方差理论中,模型的简化 ==> 方差的减少
因此朴素贝叶斯也不例外,它比线性判别分析模型 方差小,偏差大。
实际中朴素贝叶斯的案例非常多,甚至比线性判别分析多
- 新闻分类
- 垃圾邮件分类