金融风控数据挖掘—Task1

一、学习知识点概要

了解数据概况,学习金融风控中常见的分类算法评估指标和预测类评估指标。

二、学习内容

1、不同数据列的性质特征

2、分类算法的常见评估指标 

①混淆矩阵

  • 若一个实例是正类,并且被预测为正类,即为真正类TP
  • 若一个实例是正类,但是被预测为负类,即为假负类FN
  • 若一个实例是负类,但是被预测为正类,即为假正类FP
  • 若一个实例是负类,并且被预测为负类,即为真负类TN

②准确率(衡量预测准确数在总预测数中占比的指标,但是不适合样本不均衡的情况)

金融风控数据挖掘—Task1

③精确率 (又称查准率,真正类(TP)占预测为正样本(TP+FP)的百分比)

金融风控数据挖掘—Task1

④召回率(又称查全率,真正类(TP)占正样本(TP+FN)的百分比)

金融风控数据挖掘—Task1

⑤F1 Score

金融风控数据挖掘—Task1

⑥P—R曲线(P-R曲线是描述精确率和召回率变化的曲线)

金融风控数据挖掘—Task1

⑦ROC曲线(又称感受性曲线,可以测试在不同的错判为正(FPR)条件下,所能达到的正确判断为正(TPR)的值)

金融风控数据挖掘—Task1

金融风控数据挖掘—Task1

金融风控数据挖掘—Task1

⑧AUC(被定义为 ROC曲线 下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。)

3、金融风控预测类常见的评估指标

①KS

在风控中,KS常用于评估模型区分度。区分度越大,说明模型的风险排序能力(ranking ability)越强。 K-S曲线与ROC曲线类似,不同在于

  • ROC曲线将真正例率和假正例率作为横纵轴
  • K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。

金融风控数据挖掘—Task1

KS(%) 好坏区分能力
20以下 不建议采用
20-40 较好
41-50 良好
51-60 很强
61-75 非常强
75以上 过于高,疑似存在问题

②ROC

③AUC

三、学习问题与解答

准确率为什么不适用于样本不均匀的时候?

解答:

何为样本分布不均:

样本分布不均衡就是指样本差异非常大,例如共1000条数据样本的数据集中,其中占有10条样本分类,其特征无论如何你和也无法实现完整特征值的覆盖,此时属于严重的样本分布不均衡。

为何要解决样本分布不均:

样本分部不均衡的数据集也是很常见的:比如恶意刷单、黄牛订单、信用卡欺诈、电力窃电、设备故障、大企业客户流失等。

样本不均衡将导致样本量少的分类所包含的特征过少,很难从中提取规律,即使得到分类模型,也容易产生过度依赖于有限的数量样本而导致过拟合问题,当模型应用到新的数据上时,模型的准确性和健壮性将会很差。

四、学习思考与总结

在实际操作中,不存在可以完全拟合的模型。我们只能够掌握更多的拟合方式,找到其中拟合度最高的那种。没有最准确的算法,只有更优的算法。

上一篇:spark streaming窗口及聚合操作后如何管理offset


下一篇:目标检测网络---评价指标