0. 数据准备
- 原始数据来源:https://www.kaggle.com/wendykan/lending-club-loan-data/kernels
- 原始时间跨度:2007-2015
- 原始数据维度:226万 * 145
- 本项违约定义:违约16天及其以上 (d_loan = [ "Late (16-30 days)" , "Late (31-120 days)","Charged Off" , "Default", "Does not meet the credit policy. Status:Charged Off"])
- 模型时间窗口:由于数据量较大,时间跨度过长,故选择2016、2017 两年的数据进行后续建模(数据877986*145)。
1. 数据清洗
1.1 删除变量
- 删去缺失率大于 25% 变量 (44个变量)
- 删去取值只有一个的变量,同一性很大的变量 (17个变量)
- 删去一些无用变量,例如一些贷后数据,如下图