如何根据自家产品选择一家合适的三方数据源,这里除了涉及到具体的数据测试指标外,还有相应的数据成本等考虑因素。毕竟费用是有限的,而需求是无穷的。作为一名合格的数据分析人员除了掌握本文中提到的这些数据分析指标外,最好的学习资料就是参考历史资料,对标同业。本文会给各位读者分享下某集团公司对接的三方数据源的情况。
数据作为一家信贷公司把控风险已经越来越重要了,特别是对线上获客的企业而言。我们如何判断一个客户是否有足够的还款能力与还款意愿,如果仅仅只有三要素来决定别人还不还钱,其实跟随机买张六合彩的能中奖的情况一样,咱心里没底。所以有时为了获得一个有效的客户,我们会接入了N多个数据源,所以这也同时推高了征信成本的费用 。
比如在某集团公司里就会接入以下这些数据源:
在该集团对接的第三方数据之前,我们先来梳理下常用的数据测试指标,如何对一家数据征信公司进行相应的数据测试,比较基本的三大指标分别是:
1.查得率=查得数/总体的样本量
2.覆盖率=查得命中名单数/样本中命中名单的样本量
3.错分率=查得命中名单数/样本中通过且为好的样本量
一、查得率,也即数据厂商返回的数据情况;如给厂商的数据里有1000条,实际返回为900条,查得率就是90%;
覆盖率,是样本中名单查得的数据情况占实际样本中命中的数据情况;
这两个指标高,证明该三方数据厂商数据覆盖面广,数据维度丰富,该指标自然是越高越好;
二、误分率是实际上为好的客户但是却被该数据厂商返回为坏的个数,证明数据被该数据厂商误伤了,自然这个指标是越小越好;
三、我看有些资料还会把有效差异率和无效差异率,当成参考判断的指标。各位读者理解起来,可能会稍微困难些。这两个指标一般配合参考使用;如果这两个指标相对较高,可以理解为,数据厂商是数据覆盖面广,但返回的指标相对不够精准。
(PS:有效差异率是查得返回为坏的客户占实际为坏的情况;而无效差异率是反馈其他情况被拒占实际为坏的情况;其计算公式为:1.有效差异率=查得命中名单数/样本中通过且坏的样本量 2.无效差异率=查得命中名单数/样本中其他拒绝量,各位读者仅当了解)
四、IV值
另一个关于数据源的指标的筛选就是iv这个指标,iv是衡量变量信息量的指标,iv越高,证明变量的越有区分能力,这个在我们之前的文章也有提及。
IV值(Information Value)主要用来对输入变量进行编码和预测能力评估。特征变量IV值的大小即表示该变量预测能力的强弱。计算逻辑就是以WOE为基础进行计算的。网上关于iv的计算也比较多,在这里也就不在细说。
我们在计算完IV的指标后,需要观察变量分段区间之间是否有单调性,如果区间之间的分布呈现单调性,也说明变量比较符合业务逻辑,比如在测试某个数据源的时候,会画出各区间与IV之间走势的关系图:
变量分段之间呈单调上升趋势,说明分数越高,该分段的区分能力也好。
五.前期的数据对接情况基本依靠前面所述的方式,但是就像前面所述,指标是我们客观反映一家数据源是否好用的硬性条件,另外相关的费用也是我们考察一家数据厂家非常重要的因素。
但在我们设计某些产品,接入数据源的时候,用户请求输入的字段等相关操作流程,也非常需要考虑用户的体验。有些产品需要只能考虑弱授权的用户,而有些产品必须让客户强授权。一般而言,对资产特别不好的用户,强授权是必须让客户同意的。
而我接触到某一家大型的集团公司里,他们对数据源的考虑就更全面了,基本是把所有能变量情况、输入条件、计费方式、风险点都作为考察的范围。
最后是跟各位分享下该集团公司所用的三方数据源的报告部分信息:
此份资料包括了由三部分组成:
第一部分:关于选择的数据厂商,选择的数据厂商所用到的的使用的变量情况、输入条件、更新周期、覆盖范围、计费方式、风险点
第二部分:各征信公司技术对接情况
第三部分:行业新增数据
----------------------分---------------------割-------------------------------------线----------------------
十年职场生涯,这个长期混迹在风控界和科技界,摸爬滚打的大叔,曾经就职于全国最大的固网运营商平台、国内最大的ERP软件公司和一家老牌的互金公司,如果你想了解他,欢迎关注 “番茄风控大数据”一起学习一起聊!