金融风控Task1

一.学习知识点概括

本篇文章主要介绍了金融风控的一些概况。主要给我们介绍了金融风控中分类算法的评估指标。在自己原有的学习基础上,学习到了金融方面的知识,并不断理解。
本文章仅仅用于自己的学习!!如有冒犯,请多多见谅!T—T

二.学习内容

1.预测指标

*分类算法常见评估指标
(1)混淆矩阵(confusion_matrix)
金融风控Task1
(2)准确率(accuracy)
准确率是常用的一个评价指标,但是不适合样本不均衡的情况。
金融风控Task1
虽然准确率在一定的情况下具有参考价值,但是像对于癌症预测系统来说,这种极度偏斜的数据,光靠准确率是不足够的。
(3)精确率(precision)
正确预测为正样本(TP)占预测为正样本(TP+FP)的百分比。
金融风控Task1
精确率是比较常用的一个指标,但它的使用也具有一定的局限性。同样只适合数据稳定偏斜率不大的数据。
(4)召回率
它计算的是所有检索到的TP占所有正样本的比例。

金融风控Task1
(5)F1-Score
F1-Score是精确率和召回率的调和平均数,最大为1,最小为0。精确率和召回率是两个相矛盾的指标。精确率越大,召回率越小;反之,精确率越小,召回率越大。
金融风控Task1

因此,当F1-Score的值为1的时候,模型的效果最好,当值为0的时候,模型效果最差。

(6)P-R曲线(Precision-Recall Curve)
P-R曲线是描述精确率和召回率变化的曲线。
金融风控Task1
P-R曲线是对于召回率和精确率的一个度量。当对多个分类算法进行比较时,如果算法 1 的 P-R 曲线完全“外包围”算法 2 的 P-R 曲线,那么处于外侧的算法 1 有着更高的查准率和查全率(双高),这说明算法 1 比算法 2 有着更好的分类性能。
(7)ROC(Receiver Operating Characteristic)
ROC曲线就是真正率随假正率的变化情况。用于模型的预测较多。
TPR:在所有实际为正例的样本中,被正确地判断为正例之比率。
金融风控Task1

FPR:在所有实际为负例的样本中,被错误地判断为正例之比率。

金融风控Task1
金融风控Task1
(8)AUC(Area Under Curve) AUC(Area Under Curve)

AUC就是衡量学习器优劣的一种性能指标。AUC可通过对ROC曲线下各部分的面积求和而得。
AUC面积的意义:AUC是衡量二分类模型优劣的一种评价指标,表示预测的正例排在负例前面的概率。
金融风控Task1

ACU就是从所有1样本中随机选取一个样本,从所有0样本中随机选取一个样本,然后对这两个样本进行随机预测,把1样本预测为1的概率记为p1,0样本预测为1的概率记为p0,p1>p0的概率就是AUC。

(9)KS(Kolmogorov-Smirnov)

在风控中,KS常用于评估模型区分度。区分度越大,说明模型的风险排序能力(ranking ability)越强。K-S曲线与ROC曲线类似,不同在于:
ROC曲线将真正例率和假正例率作为横纵轴
K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。 公式如下:
金融风控Task1

金融风控Task1

KS不同代表的不同情况,一般情况KS值越大,模型的区分能力越强,但是也不是越大模型效果就越好。

三.学习问题与解答

*问题的提出
在上述学习的过程中,我发现虽然分类算法里有很多的指标,但是并不是所有的指标都适用于所有的模型。比如当数据偏斜率很大的时候,准确率就不适用于该数据,那么有没有什么在数据偏斜严重时可以解决的办法呢?
*解答
对数据进行采用的过程中通过相似性同时生成并插样“少数类别数据”,叫做SMOTE算法
对数据先进行聚类,再将大的簇进行随机欠采样或者小的簇进行数据生成
把监督学习变为无监督学习,舍弃掉标签把问题转化为一个无监督问题,如异常检测
先对多数类别进行随机的欠采样,并结合boosting算法进行集成学习

四.学习思考和总结

通过这次的学习,我了解到了金融风控的一些基本知识,也更深层次的学习到了分类算法的一些指标。虽然指标各有不同,但是每个指标不一定适用于所有的数据。所以当我们在使用的时候要分清使用的方法。

上一篇:精度、召回率、准确率、F1、ROC、AUC的理解


下一篇:理解ROC曲线下的AUC