一.样本
理想情况下,样本分三部分。
训练样本70%
验证样本(有时也叫测试样本)30%
跨时间验证样本:但经常这块数据没有,那也就只用前面的数据来做也可以。
二.如何确保模型训练完成
1.训练样本的roc和ks达到比较好的水平(0.7,0.3及以上)
2.验证样本和训练样本的指标差距不大(如10%,也要根据ks和roc的绝对值来看)
3.跨时间验证样本和训练样本的指标差距不大(如10%,也要根据ks和roc的绝对值来看)
三.模型上线监控
变量稳定性
模型稳定性
模型ks
通过率、拒绝率、在各种被拒原因的统计
四.其它的一些名词
主要涉及到oot(跨时间验证)、时间窗口、观察期、表现期、vintage分析、Roll Rate分析(滚动率分析)、迁移率等概念。
vintage分析:不同时间的客户,某些逾期指标的比较,可以看出不同时间段的客户、政策、数据等的质量好坏。
滚动率分析:某一部分用户,他们逾期的转化的情况,从m0--m1,从m1--m2,从m2--m3等,分析用户还款特点。
有一个比较好的链接 Vintage、滚动率、迁移率的应用 在业务中要积极使用这些科学指标进行贷款业务的监测。