【机器学习】决策树算法

在前一期介绍搭建结合机器学习的CI/CD管道时,无意中提到了算法分类。在受监督学习的分类中,有一个既适用于回归又适用于分类的算法,即我们今天要介绍的决策树算法(CART, Classification and Regression Tree)。【机器学习】决策树算法
先说一下这两类算法索要解决的问题,回归算法指的是当给出一个点集D,用一个函数去拟合这个点集,并且使得点集与拟合函数间的误差最小,从而近似模拟出应变量与自变量之间的关系。常用的回归算法有线性回归和LASSO回归,前者通俗易懂,较易实现;后者适用范围更广,对数据要求更低,容错更强。(以下是一元线性回归拟合。)
【机器学习】决策树算法
分类算法顾名思义对于预测结果没有数值上的偏差,只有对错之分。严格意义上说决策树更适用于分类算法,对于回归的预测只能给出数值的可信范围。
既然叫做决策"树",那一定是由一个主干节点和多个分叉节点及叶节点组成的,每个分叉都是一个决策,每一片叶子都是一个最终分类或取值(范围),
【机器学习】决策树算法
相较于其他回归算法,决策树的优点在于:

  • 便于理解、编译和展示(小编曾研究LASSO回归算法,简直就是天书);
  • 可以对变量进行人为筛查和功能筛选;
  • 不需要特别的数据准备,对于原始数据的排序、完整性要求不高。

    决策树算法的缺点在于:

  • 算法容易过拟合(Overfitting),往往由于为匹配所有样本而设置过多决策点,其他监督学习算法也会有类似问题,只是决策树算法更为敏感,算法生成后往往需要“剪枝(Pruning)”;
    【机器学习】决策树算法
  • 数据一旦有微小偏差就会影响算法稳定性,对于偏差数据往往需要再建立补偿算法的偏差树以保证原树的稳定性。

基于上述特性,决策树算法最常被用来预测一些是非问题。例如根据一个人的家庭背景、收入情况判断偿还银行贷款的能力;抑或根据性别、年龄、身高、体重判断他能否从某次灾难中幸存。
之前说了决策树算法既适用于回归问题又适用于分类问题,回归问题中自变量是连续的,因此回归(决策)树根据训练结果会返回平均预测值
【机器学习】决策树算法
分类(决策)树不会考虑数值的近似关系,而将数值单纯地理解为符号,只有一模一样的数才会合并到同一片叶子。
【机器学习】决策树算法
在决策树算法的设计中,使用越少的决策点越能提高算法的效率,举个简单的例子:有以下五个区间,如何用最少的决策点将五个叶子节点给区分开来。(动脑时间开始。5,4,3,2,1...)
【机器学习】决策树算法
以下公布答案,我们从X1变量出发,通过两层三个决策点的判断就得出了全部5个叶子节点,您答对了么?
【机器学习】决策树算法
关注公众号“达摩院首座”,一起开源一起嗨!

上一篇:机器学习中决策树的原理与算法 | 科普


下一篇:ML之监督学习算法之分类算法一 ——— 决策树算法