(一)基础知识
1.数据概况: (一)学习目标:1.了解并熟悉这些名词所带有的意义和何时何处使用。
- loanAmnt贷款金额 2.理解并学会运用AUC
- term贷款期限(年)
- interestRate贷款利率
- 分期付款金额
- 贷款等级
- subGrade贷款等级之子级
- 职称就业职称
- EmploymentLength就业年限(年)
- homeOwnership借款人在登记时提供的房屋所有权状况
- AnnualIncome年收入
- VerificationStatus验证状态
- issueDate贷款发放的月份
- 目的借款人在贷款申请时的贷款用途类别
- postCode借款人在贷款申请中提供的索引的前3位数字
- regionCode地区编码
- dti债务收入比
- delinquency_2years借款人过去2年信用档案中逾期30天以上的违约事件数
- ficoRangeLow借款人在贷款发行时的fico所属的下限范围
- ficoRangeHigh借款人在贷款释放时的fico所属的上限范围
- openAcc借款人信用档案中未结信用额度的数量
- pubRec减损公共记录的数量
- pubRecBankruptcies公开记录清除的数量
- 信贷信贷周转余额合计
- revolUtil循环额度最大化,或借款人使用的相对于所有可用循环信贷的信贷金额
- totalAcc借款人信用档案中当前的信用额度总数
- initialListStatus贷款的初始列表状态
- applicationType宣布贷款是个人申请还是与两个共同借款人的联合申请
- earliesCreditLine借款人最初报告的信用额度度开立的月份
- 标题借款人提供的贷款名称
- policyCode公开可用的策略代码= 1新产品不公开可用的策略代码= 2
- n系列匿名特征匿名特征n0-n14,为一些贷款人行为计数特征的处理
(二)竞赛评价指标以及常见的评估指标
分类算法指标
1.怀疑矩阵(混淆矩阵)
概念:混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。 [1] 在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。在图像精度评价中,主要用于比较分类结果和实际测得值,可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类相比较计算的。
举例1:如有150个样本数据,预测为1,2,3类各为50个。分类结束后得到的混淆矩阵为:
预测 |
||||
类1 |
类2 |
类3 |
||
实际 |
类1 |
43 |
2 |
0 |
类2 |
5 |
45 |
1 |
|
类3 |
2 |
3 |
49 |
每一行之和表示该类别的真实样本数量,每一列之和表示被预测为该类别的样本数量,
第一行说明有43个属于第一类的样本被正确预测为了第一类,有两个属于第一类的样本被错误预测为了第二类
举例2:假设有一个用来对猫(cats)、狗(dogs)、兔子(rabbits)进行分类的系统,混淆矩阵就是为了进一步分析性能而对该算法测试结果做出的总结。假设总共有 27 只动物:8只猫, 6条狗, 13只兔子。结果的混淆矩阵如下图:
在这个混淆矩阵中,实际有 8只猫,但是系统将其中3只预测成了狗;对于 6条狗,其中有 1条被预测成了兔子,2条被预测成了猫。从混淆矩阵中我们可以看出系统对于区分猫和狗存在一些问题,但是区分兔子和其他动物的效果还是不错的。所有正确的预测结果都在对角线上,所以从混淆矩阵中可以很方便直观的看出哪里有错误,因为他们呈现在对角线外面。
- (1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive)
- (2)若一个实例是正类,但是被预测为负类,即为假负类FN(假阴性)
- (3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive)
- (4)若一个实例是负类,并且被预测为负类,即为真负类TN(真负)
2.准确率(Accuracy)准确率是常用的一个评价指标,但是不适合样本不均衡的情况。
Accuracy=TP+TNTP+TN+FP+FN
3.精确率(Precision)又称查准率,正确预测为正样本(TP)占预测为正样本(TP + FP)的百分比。
Precision=TPTP+FP
4.召回率(Recall)又称为查全率,正确预测为正样本(TP)占正样本(TP + FN)的百分比。 Recall=TPTP+FN
5.F1分数精确率和召回率是相互影响的,精确率升高则召回率下降,召回率升高则精确率下降,如果需要兼顾彼此,就需要精确率,召回率的结合F1分数。
F1−分数= frac2 frac1Precision+ frac1Recall
6.PR曲线(Precision-Recall Curve) PR曲线是描述精确率和召回率变化的曲线
7.ROC(接收机工作特性)
- ROC空间将假正例率(FPR)定义为X轴,真正例率(TPR)定义为Y轴。
TPR:在所有实际为正例的样本中,被正确地判断为正例之比率。
TPR=TPTP+FN:在所有实际为负例的样本中,被错误地判断为正例之比率。FPR= fracFPFP+TN
8,AUC(曲线下面积)AUC(曲线下面积)被定义为ROC曲线下与坐标轴围成的面积,看起来这个面积的数值不会大于1。又由于ROC曲线一般都位于y = x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性发生;等于0.5时,则真实性最低,无应用价值。(本次竞赛所用评价指标)
对于金融风控预测类常见的评估指标如下:
1,KS(Kolmogorov-Smirnov)KS统计量由两位苏联数学家AN Kolmogorov和NV Smirnov提出。在风控中,KS常用于评估模型区分度。能力)越强。KS曲线与ROC曲线类似,不同在于
- ROC曲线将真正例率和假正例率作为横纵轴
- KS曲线将真正实例率和假正例率都作为纵轴,横轴则由偏置的阈值来代替。公式如下:KS=max(TPR−FPR)KS不同代表的不同情况,一般情况KS值尺度,模型的区分能力越强,但是也不是模型模型效果就越好,如果KS过大,模型可能存在异常,所以当KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况,但此对应不是唯一的,只代表大致趋势。
KS(%) | 好坏区分能力 |
---|---|
20以下 | 不建议采用 |
20-40 | 更好 |
41-50 | 良好 |
51-60 | 很强 |
61-75 | 非常强 |
75以上 | 过于高,疑似存在问题 |
2,ROC
3,AUC