一、学习知识点概要
了解数据概况,学习金融风控中常见的分类算法评估指标和预测类评估指标。
二、学习内容
1、不同数据列的性质特征
2、分类算法的常见评估指标
①混淆矩阵
- 若一个实例是正类,并且被预测为正类,即为真正类TP
- 若一个实例是正类,但是被预测为负类,即为假负类FN
- 若一个实例是负类,但是被预测为正类,即为假正类FP
- 若一个实例是负类,并且被预测为负类,即为真负类TN
②准确率(衡量预测准确数在总预测数中占比的指标,但是不适合样本不均衡的情况)
③精确率 (又称查准率,真正类(TP)占预测为正样本(TP+FP)的百分比)
④召回率(又称查全率,真正类(TP)占正样本(TP+FN)的百分比)
⑤F1 Score
⑥P—R曲线(P-R曲线是描述精确率和召回率变化的曲线)
⑦ROC曲线(又称感受性曲线,可以测试在不同的错判为正(FPR)条件下,所能达到的正确判断为正(TPR)的值)
⑧AUC(被定义为 ROC曲线 下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。)
3、金融风控预测类常见的评估指标
①KS
在风控中,KS常用于评估模型区分度。区分度越大,说明模型的风险排序能力(ranking ability)越强。 K-S曲线与ROC曲线类似,不同在于
- ROC曲线将真正例率和假正例率作为横纵轴
- K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。
KS(%) | 好坏区分能力 |
20以下 | 不建议采用 |
20-40 | 较好 |
41-50 | 良好 |
51-60 | 很强 |
61-75 | 非常强 |
75以上 | 过于高,疑似存在问题 |
②ROC
③AUC
三、学习问题与解答
准确率为什么不适用于样本不均匀的时候?
解答:
何为样本分布不均:
样本分布不均衡就是指样本差异非常大,例如共1000条数据样本的数据集中,其中占有10条样本分类,其特征无论如何你和也无法实现完整特征值的覆盖,此时属于严重的样本分布不均衡。
为何要解决样本分布不均:
样本分部不均衡的数据集也是很常见的:比如恶意刷单、黄牛订单、信用卡欺诈、电力窃电、设备故障、大企业客户流失等。
样本不均衡将导致样本量少的分类所包含的特征过少,很难从中提取规律,即使得到分类模型,也容易产生过度依赖于有限的数量样本而导致过拟合问题,当模型应用到新的数据上时,模型的准确性和健壮性将会很差。
四、学习思考与总结
在实际操作中,不存在可以完全拟合的模型。我们只能够掌握更多的拟合方式,找到其中拟合度最高的那种。没有最准确的算法,只有更优的算法。