二分类模型的kaggle notebook笔记

kaggle上有一个这样的比赛:Home Credit Default Risk Competition, 是预测信用卡违约的。

有一名作者是Will Koehrsen,他写了一系列的文章,从二分类入门到参数调试,非常详细。

https://www.kaggle.com/willkoehrsen/start-here-a-gentle-introduction

这是入门的文章,关于基本的数据预处理,包括缺失值的处理,特征工程等,最后采用了logistic model, random forest model, lightGBM model进行预测; 

https://www.kaggle.com/willkoehrsen/intro-to-model-tuning-grid-and-random-search

这篇文章是关于模型参数调试的。讲的主要是random search与grid search寻找模型参数的。

https://www.kaggle.com/willkoehrsen/automated-model-tuning

这篇文章是关于如何使用Hyperopt进行参数寻找的,Hyperopt的原理是bayesian optimization方法,这个方法的效果一般会最好,只要有足够的计算资源。有一次调试lightgbm,大约用了三天。

 

上一篇:本地访问远程的jupyter notebook


下一篇:可视化运行Python的神器Jupyter Notebook