催收评分卡(五)--浅显理解模型一个非常重要的验证指标

关注公众号“ 番茄风控大数据”,获取更多数据分析与风控大数据的实用干货。

  之前说的关于变量的整理,按照一套标准化的建模流程,变量整理完后,一般会基于各种基础变量做数据衍生。

  原计划是想做关于数据变量衍生的内容,考虑到后台有粉丝在咨询关于模型验证的事情,今天就穿插一下讲模型验证里最重要的指标KS值。

  KS值是衡量一个模型是否有区分度的一个非常重要的指标,模型一般在0.3以上就具有一定的区分能力。我了解到,目前各大公司在实际应用模型时,大部分模型ks基本在0.2左右。

  现在为了让做业务的同学也能浅显地理解ks值,我除了讲解ks的公式外,还把ks值用excel实现了。

  首先,还是应该贴一下ks值的计算原理:

  ks值是在模型中用于区分预测正负样本分隔程度的评价指标。每个样本的预测结果化对应的一个个分数,从最低分到最高分,输出为正负样本的累积分布。Ks值为这个两个正负样本中,最大差值的绝对值。

  我们知道,在sas里,算KS值是很方便的。用proc npar1way过程,就能求出ks值了。单单调用一个过程,其实对于使用一个过程步的同学来说,他们也比较好奇究竟是怎么算出来这个结果,本人就简洁扼要地说下怎样将ks输出到excel里。

  在网上搜了很久,几乎没有关于ks值输出到excel的资料,那就自己动手,把ks值输出excel,并且成功完美实现。

  我们先来看展示出来的结果,请看算出来的效果:
催收评分卡(五)--浅显理解模型一个非常重要的验证指标
  并且在右上角,我们会把ks值做成表格的形式输出:
催收评分卡(五)--浅显理解模型一个非常重要的验证指标

  当然有表的形式,还是不够,还应该为KS值配上图。

  输出图之前我们先梳理几个问题:

  A.问题一:常常做某些贷前评分卡的时候,总是听到有同学说,自己的模型建设出来的,发现模型的KS值非常低,而在贷后催收评分卡里,最怕的是评分卡ks值非常高。先来看一个ks值极高的图;
催收评分卡(五)--浅显理解模型一个非常重要的验证指标
  这个是我曾经开发出来一个KS值达到90%的模型的。Ks值够高了吧,但是看图就可以很明显地看出来,在分数达到某个值的(大概是将近680分的时候),模型有一个断崖式的走势。

  这样的ks值,其实对客群的分类并不完美。

  至于造成这种结果的原因,也是在我之前文章中,反复强调过的:非常容易用y预测y。假如用y预测y变量,其实在早期的iv值的计算的时候,就有个非常明显的特征,就是IV值。IV值一般也到了一个反常态的水平,值会大于1或者大于2。

  问题二:KS的取值在多少比较合适?先贴图:有畸形的KS值,也有做得成功的KS值图,

催收评分卡(五)--浅显理解模型一个非常重要的验证指标
  所以ks值并不是越高越好,这是一张正常的KS图。从这个图就可以看出来,这张图的KS值走势就比较符合正常模型的走势。而且在中间某个点位置,KS值达到最大。

  一般在说催收评分里做出来KS值会比较高,以我做出来的催收评分为例,KS值能达到0.4到0.5的幅度内。

  一般正常来说:指标的合理性应该是这样:

催收评分卡(五)--浅显理解模型一个非常重要的验证指标
  最后图表合在一起的,是长成这个样子的。
催收评分卡(五)--浅显理解模型一个非常重要的验证指标

  问题三:平常使用ks值的用途。
  当一张催收评分卡开发完成,Ks值除了作为我们的模型验证指标外。我们还能用来做客群切分。 具体做法就是,把分数低于最大ks值的客群,全部拒批。当然,使用的这样的场景,仅仅是基于为了最大可能的筛除掉坏客群而言的。实操中,我们经常需要综合考虑客群的bad rate,资金成本, APR等维度综合考虑。


  十年职场生涯,这个长期混迹在风控界和科技界,摸爬滚打的大叔,曾经就职于全国最大的固网运营商平台、国内最大的ERP软件公司和一家老牌的互金公司,如果你想了解他,欢迎加入" 番茄风控大数据"一起学习一起聊!

催收评分卡(五)--浅显理解模型一个非常重要的验证指标

上一篇:Gefran ks-e-e-z-b04c m-v-530传感器 如何使用


下一篇:洛谷P1088 火星人