赛题:零基础入门数据挖掘 - 零基础入门金融风控之贷款违约预测
项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl
比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction
目的:
- 学习在金融分控领域常用的机器学习模型
- 学习机器学习模型的建模过程与调参流程
学习内容概述:
1、lightgbm
学习内容:
参数解释:
params = {
'boosting_type': 'gbdt',
'objective': 'binary',
'learning_rate': 0.1,
'metric': 'auc',
'min_child_weight': 1e-3,
'num_leaves': 31,
'max_depth': -1,
'reg_lambda': 0,
'reg_alpha': 0,
'feature_fraction': 1,
'bagging_fraction': 1,
'bagging_freq': 0,
'seed': 2020,
'nthread': 8,
'silent': True,
'verbose': -1,
}
boosting_type :‘gbdt’
learning_rate:学习率,初始状态建议选择较大的学习率,设置为0.1.
metric : 评价指标
max_depth:每棵树的最大深度,防止过拟合。初始状态设置3~8。
num_leaves :每棵树的最多叶子数。
min_child_weight :又称为min_sum_hessian_in_leaf,指要想建立一个叶子,该叶子需要提供的最小hessian值。这两个参数都是对新建叶子设置了门槛,可以降低叶子数量,减小过拟合。
feature_fraction:每次新建一棵树时,随机使用多少的特征。
bagging_fraction: 每次进行bagging时,随机使用多少的样本。
bagging_freq: 每建立多少棵树,就进行一次bagging。
reg_alpha :L1正则化参数
reg_lambda :L2正则化参数
silent :默认选择True,选择False会输出很多建模中的细节,作用不大还刷屏。
模型介绍:
LightGBM模型
https://blog.csdn.net/wuzhongqiang/article/details/105350579
总结:
这一个task中,我主要学习了各种各样的模型,各个模型都很难,其中的内核,各种各样数学的公式比较难懂,需要通过慢慢的理解,以及通过函数的示例的学习,之后还需要继续研究。