kaggle上有一个这样的比赛:Home Credit Default Risk Competition, 是预测信用卡违约的。
有一名作者是Will Koehrsen,他写了一系列的文章,从二分类入门到参数调试,非常详细。
https://www.kaggle.com/willkoehrsen/start-here-a-gentle-introduction
这是入门的文章,关于基本的数据预处理,包括缺失值的处理,特征工程等,最后采用了logistic model, random forest model, lightGBM model进行预测;
https://www.kaggle.com/willkoehrsen/intro-to-model-tuning-grid-and-random-search
这篇文章是关于模型参数调试的。讲的主要是random search与grid search寻找模型参数的。
https://www.kaggle.com/willkoehrsen/automated-model-tuning
这篇文章是关于如何使用Hyperopt进行参数寻找的,Hyperopt的原理是bayesian optimization方法,这个方法的效果一般会最好,只要有足够的计算资源。有一次调试lightgbm,大约用了三天。