机器学习西瓜书——决策树(Decision Tree)部分总结

决策树(Decision Tree)

机器学习西瓜书——决策树(Decision Tree)部分总结

基本概念

  • 由很多“树”组成,是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。

  • 包含了一个根结点,若干个内部结点和若干个叶结点;

    • 叶结点对应于决策结果,其他每个结点则对应于一个属性测试
    • 每个结点包含的样本集合根据属性测试的结果被划分到子结点中
    • 根结点包含样本全集
    • 从根结点到每个叶结点的路径对应了一个判定测试序列

学习目的

  • 产生一棵泛化能力比较强,处理未遇见的示例能力强的决策树。也就是说,根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。

伪代码

划分选择

  • 问题提出

    • 如何获得最优划分属性
  • 信息熵(information entropy)

    • 度量样本集合纯度的常用指标
    • 公式:
  • 信息增益(information gain)

    • 基本定义和解释

    • 意义

      • 信息增益越大,则意味着使用属性a来进行划分所获得的纯度提升越大。
    • 结论

      • 可以使用信息增益来进行决策树的划分属性选择,即
    • 计算步骤(示例)

      • 1、先计算所有样例的正反例的比例,得出根结点的信息熵
      • 2、计算其他每个属性集合的信息增益(需要先计算出每个属性的信息熵)
      • 3、信息增益最大的就被选为划分属性,成为了根结点的划分
      • 4、再对分支节点进一步进行划分(划分属性集合的信息),划分后对每个结点再次计算信息增益
      • 5、再根据信息增益最大的被选为划分属性,如此重复上述步骤。对每个分支节点进行操作
  • 增益率(gain ratio)

    • 提出问题

      • 信息增益准则对可取值数目较多的属性有所偏好,会带来不利的影响
    • 基本概念

      • 对可取值数目较少的属性有所偏好
      • 属性a为“固有值”(intrinsic value)。属性a的可取值数目越多(V越大),则IV(a)的值通常也会越大。
    • 特点

      • 并不直接选择增益率最大的候选划分属性,而是使用了一个启发式

        • 先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的
  • 基尼指数(Gini index)

    • 基本概念

      • 用基尼值带度量数据集D的纯度
    • 公式

    • 说明

      • 反映了从D中随机抽取两个样本,其类别标记不一致的概率。所以,Gini(D)越小,数据集D的纯度越高。
    • 属性的基尼指数计算

      • 在属性集合A中,选择使的划分后基尼指数最小的属性作为最优划分属性

PS

后续会把这章没看完的补全

Reference

【1】周志华. Machine Learning 机器学习

上一篇:1.20日学习总结


下一篇:锻炼 - Exercise - Indexed Tree