风控ML[9] | Vintage和Roll Rate 分析的详解

我们说了好几期的风控建模了,也有不少的同学私信我说一般来说我们需要怎么确定Y值呢?,到底多坏的逾期表现的客户可以被我们定义为坏客户呢?今天这篇文章,就给大家介绍一个大家既熟悉又陌生的分析工具——Vintage Analysis(账龄分析)和Roll Rate Analysis(滚动率分析),希望对大家有一定帮助。

本次文章从以下几个模块来展开说说,先介绍一下理论,然后造一批虚拟数据来实际实现一波加深理解,最后再回归我们的主题。

00 Index

01 Roll Rate Analysis的理论
02 Vintage Analysis 的理论
03 如何确定建模的A卡Y值

01 Roll Rate Analysis的理论

Roll Rate Analysis,即滚动率分析,目的在于确定坏客户的定义逻辑,比如说逾期多少天之后的客户,不会在未来还钱了。为了找到更加准确的坏人,我们这个阈值,不能太小。于是,就有了滚动率分析的方法,来确定这个阈值。
滚动率分析,就是选择一个观测点,向前和向后的一段时间窗口,统计不同档次客户的变化情况,从而来确定坏人的划分标准,具体实现步骤如下:
1,选择观测点,比如20210601;
2,以观测点向前统计6个月内(20201201-20210601),客户的档次分布情况(档次一般分为C:正常,M1:逾期0-30天,M2:逾期31-60天,M3:逾期61-90天,M4+:逾期90+,逾期标签以时间窗口内,最坏的逾期表现,一般用指标:最长逾期天数来衡量并归类档次);
3,以观测点向后统计6个月内(20210601-20211201),客户的档次分布情况,如下表;
风控ML[9] | Vintage和Roll Rate 分析的详解

4,将分布用占比的形式表示,如下表;
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传风控ML[9] | Vintage和Roll Rate 分析的详解

5,选择多个观测点,重复迭代2-3步,得到更多的分布,最终确定一个平均水平。

那我们有了上面的表格之后,就可以着手去分析下了。上面我们提及到,滚动率分析的目的是为了找到一个阈值,用来区分坏人的阈值。所以,我们基于现有的数据,分析一下当下客群(不同客群的好坏定义不相同)的坏人在多久会体现得比较明显。
我们从表中可以看到,这是一张交叉表,是同一个在过去6个月和未来6个月的表现来统计的。比如说第一行,代表的含义就是:原先(即过去6个月内)还款表现正常的客户,在未来(即未来6个月内)还款表现的重新分布。比如原先正常的客户有8355个,经过6个月的表现,有95.8%(8000个)客户仍是正常的,有3%的客户变成了M1,有1.2%的客户变成了M2,以此类推。
风控ML[9] | Vintage和Roll Rate 分析的详解

在Roll Rate Analysis中,有一个名词很有意思,就是“从良率”,也就是说,原先是“坏人”,后面正常还款了,变成了“好人”,这个也是决定我们确定Bad的阈值的关键!
比如,从表中,我们可以看到,原先是M3的(第4行)客户,只有3.4%变成了C(正常),从良率太低了,所以我们可以确定,在当下客群,客户如果在过去6个月内,最长逾期天数超出了60天(即M3+),基本上都是坏人了,所以我们可以以这个阈值,作为我们确定坏人的阈值。
风控ML[9] | Vintage和Roll Rate 分析的详解

02 Vintage Analysis 的理论

一开始我接触这个名词的时候就觉strong text得很高大上,就那种不明觉厉的感觉,于是就去百度了下。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kDkEutaq-1643691854480)(:/eadee3a7850242d1b1375bf33f6c37d1)]
Vintage分析其实一开始是起源于葡萄酒行业,酿酒师们为了观察葡萄酒的变化质量而常用的分析方法,可以通过每年观察酒精浓度来衡量当年葡萄酒的品质,后面类似的分析方法就在各行各业应用开来了,最为经典的就是在风控领域的应用。

我们先来直观地看一下 Vintage 曲线(随意造的数据)。
风控ML[9] | Vintage和Roll Rate 分析的详解
风控ML[9] | Vintage和Roll Rate 分析的详解

我们要看懂上图,需要了解一下的知识:
1,Now: 指的是当下观测时间点;
2,DPD60+: 指的是定义坏人的阈值,即逾期60天以上,这个值就是在上面

上一篇:Linux/UNIX系统数据文件和信息


下一篇:pip升级(Python pip upgrade)