CART回归树与分类树

 

输出是连续变量的是回归树,输出是离散变量的是分类树。

CART决策树是一个二叉树。

回归树:

CART回归树与分类树

输入空间划分为M个单元 CART回归树与分类树 ,单元 CART回归树与分类树 对应输出 CART回归树与分类树 , CART回归树与分类树 是其对应的输入空间。

输出 CART回归树与分类树 取 CART回归树与分类树 上所有输出的均值:

CART回归树与分类树

下面,看输入空间的划分方法。

假设最优切分变量 CART回归树与分类树 ,最优切分点 CART回归树与分类树 ,输入空间被划分为两部分:

CART回归树与分类树

它们的输出是各自输入空间中样本标签值 CART回归树与分类树 的均值 CART回归树与分类树 和 CART回归树与分类树 。

因此,优化目标为:

CART回归树与分类树

穷举 CART回归树与分类树 ,找到最优切分变量 CART回归树与分类树 和切分点 CART回归树与分类树 。

之后,分治递归直到满足终止条件(例如误差小于某阈值、样本个数小于某阈值、没有更多特征等)。

分类树:

一个样本集合 CART回归树与分类树 的基尼指数(值越大,不确定性越大):

CART回归树与分类树

其中, CART回归树与分类树 是属于第 CART回归树与分类树 类的样本子集。

将样本集合 CART回归树与分类树 划分为CART回归树与分类树 和 CART回归树与分类树 的两部分 CART回归树与分类树 和 CART回归树与分类树 ,对这种划分定义基尼指数:

CART回归树与分类树

它表征了经分割后,样本集合D的不确定性,同样地,基尼指数越小,样本不确定性越小。

选择使 CART回归树与分类树 最小的 CART回归树与分类树 。

之后,分治递归直到满足终止条件即可。

上一篇:4.7.2 在局域网上进行硬件多播


下一篇:小白学习[leetcode]之[深度遍历错误示范]126. 单词接龙 II