集成学习Ensemble Learning
集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器更好的学习效果的一种机器学习方法。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务,实现博采众长。
一般而言,通常所说的集成学习中的多个学习器都是同质的“弱学习器”。基于该弱学习器,通过样本集扰动、输入特征扰动、输出表示扰动、算法参数扰动等方式生成多个学习器,进行集成后获得一个精度较好的“强学习器”。
思路步骤:集成学习的主要思路是先通过一定的规则生成多个学习器,再采用某种集成策略进行组合,最后综合判断输出最终结果。
核心思想:就是如何训练多个弱分类器以及如何将这些弱分类器进行组合。
1、集成学习中弱分类器选择
一般采用弱分类器的原因在于将误差进行均衡,因为一旦某个分类器太强了就会造成后面的结果受其影响太大,严重的会导致后面的分类器无法进行分类。常用的弱分类器可以采用误差率小于0.5的,比如说逻辑回归、SVM、神经网络。
2、多个弱分类区如何组合
基本分类器之间的整合方式,一般有简单多数投票、权重投票,贝叶斯投票,基于D-S证据理论的整合,基于不同的特征子集的整合。
EL的解决问题类型
比如分类问题集成、回归问题集成、特征选取集成、异常点检查集成等。
EL算法分类
Boosting、Bagging、随机森林。
1、VotingClassifier、Bagging
2、Stacking、Blending
3、Boosting
EL代码实现
更新……