风控建模中的单变量分析

目录


第2节 单变量分析

2.1 征信矢量

不管是一代还是二代征信报告,其包含的信息都是繁多且复杂的,并且无法直接使用原始数据进行CA分析和建模,为了快速、准确、全面地获取征信信息,需要对征信进行矢量提取,得到征信矢量。



提取征信矢量原则

  • 内容:涵盖个人信息、信贷记录、逾期记录、查询记录、负面原因……等多个维度
  • 时间:从近期、中期、长期多个时间维度进行切片统计,实现对客户信用变化轨迹的追踪



提取征信矢量作用

  • 快速高效解读征信报告

  • 便捷有效地建立客户个性档案

  • 使客户群体的对比简单易行

  • 用于设计准入规则与信贷策略

  • 单变量分析基础

  • 作为评分卡建模输入变量


2.2 信息熵

征信矢量提取之后,为了区分不同矢量对风险的识别能力,这时就需要计算每个矢量的信息熵,这个过程就是单变量分析,也叫CA分析。CA分析的原理及过程见下表:

变量 好客户数 好客户占比 坏客户数量 坏客户占比 好/坏指数 比率 信息熵增量
A:0 to 2 10000 10% 400 40% -4.0 -4.0 41.59
B:2 to 5 20000 20% 300 30% -1.5 -1.5 4.05
C:5 to 9 30000 30% 200 20% 1.5 1.5 4.05
D:>9 40000 40% 100 10% 4.0 4.0 41.59
合计 100000 1000 91.29

表格解读:

  • 变量:A、B、C、D是4个不同的箱体
  • 好客户占比:该箱体中好客户数量,占总好客户数量的比例
  • 坏客户占比:该箱体中坏客户数量,占总坏客户数量的比例
  • 好/坏指数:好客户占比和坏客户占比,两者值大/值小,若是坏客户占比值大,在最后结果前加负号(-)
  • 比率:好客户占比/坏客户占比,比率越小,说明坏客户占比越高?????
  • 信息熵增量:

最后把不同箱体的信息熵增量相加,就得到该变量的信息熵。对于不同的征信矢量,信息熵越大,区分好坏客户的能力越强。


2.3 分箱

简而言之,分箱就是对变量进行分组。分箱是CA分析的第一步,也是最重要的一步。



分箱的原理

分箱的实质,其实就是对连续变量离散化、单调化、线性化的过程。

  • 离散化:让连续变量取值变成有限个(一般不超过10个)
  • 单调化:单调递增,或单调递减
  • 线性化:借助WOE转换实现线性化



分箱的好处

  • 分箱后易于模型开发的快速迭代,结果易于存储,容易拓展
  • 分箱增强了变量的鲁棒性,使模型性能更加稳定,降低了模型过拟合的风险



分箱的方法

  • 非监督性分箱(效果不好)
    • 等频分箱、等距分箱、聚类分箱等
  • 监督性分箱
    • 贪心算法:卡方分箱、Beat-KS
    • 其他方法


2.3.1卡方分箱

卡方分箱的思路,是先对变量进行离散化,然后判断相邻区间好坏客户分布是否一致。如果两个相邻区间具有类似分布,则这两个区间可以合并;否则,应当保持分开。而低卡方值表明它们具有相似分布,可以合并。



卡方分箱原理

  • 离散化:卡方分箱是「自底向上」「基于合并」的数据离散化方法
  • 卡方检验:具有最小卡方值的相邻区间进行合并,直到满足确定的停止准则



卡方分箱步骤

  • 第一步:预先设定卡方阈值
  • 第二步:根据要离散的变量对实例进行排序,然后进行等频分箱(比如2%为一组,则分成50个bin)
  • 第三步:合并区间
    • 对相邻区间进行卡方检验并计算卡方值
    • 把卡方值最小的两个区间进行合并
  • 第四步:停止合并
    • 最小卡方值超出设定的阈值
    • bin的数量达到设定的最小数值

值得注意的是,若卡方分箱中出现某个箱内全部为好客户或坏客户,则需要进行合并处理。



卡方阈值的确定

  • 根据显著性水平和*度得到卡方值
  • 大于阈值说明相邻的两个区间有显著差异,不能合并
  • 阈值越大,离散后的区间数量越少,区间越大



单调化处理

卡方分箱后,还需对变量进行趋势处理以保证单调性。单调化的目的,是为了让变量在模型中易于解释(可解释性,保证和业务逻辑一致)。常用有两种方法:

  • 基于业务的理解:对不符合单调性的bin进行合并(比如查询类变量,一般是反的趋势,查询越多越不好)
  • 基于数据驱动:能直观看到变量的趋势变化,对不符合单调性的bin进行合并


2.3.2 Beat-KS分箱

Beat-KS分箱原理

  • 离散化:Best-KS分箱是「自顶向下」「基于拆分」的数据离散化方法
  • KS检验:选择具有最大KS值的拆分点



Beat-KS分箱步骤

  • 第零步:预先设定分箱阈值
  • 第一步:初始化,根据要离散的变量对实例进行排序,每个实例属于一个区间
  • 第二步:计算出KS最大的那个值,即为切分点,记为D,然后把数据切分成两部分
  • 重复第二步,进行递归,D左右的数据进一步拆分,直到满足以下条件
    • 下一步分箱后最小箱占比低于设定阈值
    • 下一步分箱后某个箱内全部为好客户或坏客户
    • 下一步分箱后不再单调,则考虑用其他的分箱方法


2.4 思考

目前的分箱方法(卡方分箱)如何改进?

  • 卡方分箱、Best-KS分箱得到的都是局部最优解,而不是全局最优解
  • 卡方分箱是先进行拆分再合并,所以拆分过程中可能把一些局部最优解漏掉了
上一篇:LVS NAT模型


下一篇:用肘方法确定 kmeans 聚类中簇的最佳数量