Lending Club 贷款业务评分卡建模

0. 数据准备

  • 原始数据来源:https://www.kaggle.com/wendykan/lending-club-loan-data/kernels
  • 原始时间跨度:2007-2015
  • 原始数据维度:226万 * 145
  • 本项违约定义:违约16天及其以上 (d_loan = [ "Late (16-30 days)" , "Late (31-120 days)","Charged Off" , "Default", "Does not meet the credit policy. Status:Charged Off"])
  • 模型时间窗口:由于数据量较大,时间跨度过长,故选择2016、2017 两年的数据进行后续建模(数据877986*145)。

1. 数据清洗

1.1 删除变量

  1. 删去缺失率大于 25% 变量 (44个变量)
  2. 删去取值只有一个的变量,同一性很大的变量 (17个变量)
  3. 删去一些无用变量,例如一些贷后数据,如下图

Lending Club 贷款业务评分卡建模

 

上一篇:30 Day Challenge Day 3 | Leetcode 145. Binary Tree Postorder Traversal


下一篇:03.pandas数据DataFrame