概述
CatBoost是俄罗斯的搜索巨头Y andex在2017年开源的机器学习库,CatBoost的主要算法原理可以参照以下两篇论文:Anna Veronika Dorogush, Andrey Gulin, Gleb Gusev, Nikita Kazeev, Liudmila Ostroumova Prokhorenkova, Aleksandr Vorobev "Fighting biases with dynamic boosting". arXiv:1706.09516, 2017和Anna Veronika Dorogush, Vasily Ershov, Andrey Gulin "CatBoost: gradient boosting with categorical features support". Workshop on ML Systems at NIPS 2017。
- 也是Boosting族算法的一种,
- 同前面介绍过的XGBoost和LightGBM类似,依然是在GBDT算法框架下的一种改进实现,
- 是一种基于对称决策树(oblivious trees)算法的参数少、支持类别型变量和高准确性的GBDT框架,
主要说解决的痛点是:
- 高效合理地处理类别型特征,这个从它的名字就可以看得出来,CatBoost是由categorical和boost组成,
- 另外是处理梯度偏差(Gradient bias)以及预测偏移(Prediction shift)问题,提高算法的准确性和泛化能力。