决策树原理整理

一、决策树的基本思想

决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。

决策树算法的核心是要解决两个问题:
1)如何从数据表中找出最佳节点和最佳分枝?
2)如何让决策树停止生长,防止过拟合?

1. 决策树模型的建树依据

(1)决策树模型的建树依据主要用到的是基尼系数概念。
基尼系数(gini)用于计算一个系统中的失序现象,即系统的混乱程度越高,基尼系数越高,建立决策树模型的目的就是降低系统的混乱程度,从而得到合适的数据分类效果。
决策树原理整理
其中Pk为类别k在样本T中出现的频率

信息熵用以描述信源的不确定度, 概率越大,可能性越大,但是信息量越小,不确定性越小,熵越小。

决策树采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为0,此时每个叶子节点中的实例都属于同一类。

二、决策树的代码实现

2.1. 决策树sklearn基本思想

from sklearn import tree  #导入需要的模块
clf = tree.DecisionTreeClassifier()  #实例化
clf = clf.fit(X_train,y_train)   #用训练集数据训练模型
result = clf.score(X_test,y_test)  #导入测试集,从接口中调用需要的信息

sklearn.tree.DecisionTreeClassifier
八个参数: Criterion,两个随机性相关的参数(random_state,splitter),五个剪枝参数(max_depth,
min_samples_split,min_samples_leaf,max_feature,min_impurity_decrease)
一个属性: feature_importances_
四个接口: fit,score,apply,predict

参数:

1、criterion:{“gini”, “entropy”}, default=”gini” 信息增益计算指标, 基尼指数信息熵

2、 splitter: {“best”, “random”}, default=”best” best选择最优切分方案, random,
随机选择. 3、 max_depth: int, default=None 限制树能增长到的最大深度. 限制模型过拟合的参数.
4、min_samples_split: int or float, default=2 最小样本分裂个数.
只有当一个节点当中的样本个数,超过这个值的时候, 才能够继续向下分裂.整数: 就是样本个数 小数: 百分比 5、
min_samples_leaf:int or float, default=1 叶节点最小样本个数. 分裂之后的叶节点样本个数. 6、
max_features:int, float or {“auto”, “sqrt”, “log2”},
default=None寻找最佳分割时要考虑的特征数量.If int,考虑几个 If float, 百分比 0.6 随机选择60%的特征,
寻找最优的. If “auto”, ‘sqrt’ 根号个特征. If “log2” 对数个 If None, 所有特征都考虑 7、
random_state: 随机数种子

8、max_leaf_nodes:int, default=None 最大叶节点个数.

9、min_impurity_decrease:float, default=0.0 最小不纯度下降.
每次分裂不纯度都会下降,下降越多分裂效果越好, 如果一次分裂下降不到这个参数值, 就不再向下分裂.

10、 class_weight: 类别权重 用于处理不平衡数据集.

2.2 重要参数

1. criterion :不纯度指标计算方式
不纯度越低,决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心大多是围绕在对某个不纯度相关指标的最优化上。不纯度基于节点来计算,树中的每个节点都会有一个不纯度,并且子节点的不纯度一定是低于父节点的,也就是说,在同一棵决策树上,叶子节点的不纯度一定是最低的。

  • 输入”entropy“,使用信息熵(Entropy)
  • 输入”gini“,使用基尼系数(Gini Impurity)
  • 不填默认是使用基尼系数
    决策树原理整理
    其中t代表给定的节点,i代表标签的任意分类, p(i|t)代表标签分类i在节点t上所占的比例。注意,当使用信息熵时,sklearn实际计算的是基于信息熵的信息增益(Information Gain),即父节点的信息熵和子节点的信息熵之差.
    不纯度越低,决策树对训练集的拟合越好。

决策树的基本流程:
(1)计算全部特征的不纯度指标
(2)选取不纯度指标最优的特征进行分支
(3)在第一个特征的分支下,计算全部特征的不纯度指标
(4)选取不纯度指标最优的特征继续进行分支
直到没有更多的特征可用,或是整体的不纯度指标已经最优,决策树就会停止生长。

下面我们以白酒数据集为例画一棵树:

  1. 导入需要的算法库和模块
from sklearn import tree
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
  1. 探索数据
wine = load_wine() #实例化

wine
print('wine.data.shape :',end='')
print(wine.data.shape)
print('wine.target.shape :',end='')
print(wine.target.shape)

决策树原理整理
如果wine是一张表,他应该长这样:

import pandas as pd
pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1)

决策树原理整理
决策树原理整理

  1. 划分训练集和测试集
Xtrain,Xtest,Ytrain,Ytest = train_test_split(wine.data,wine.target,test_size=0.3)
  1. 建立模型
clf = DecisionTreeClassifier(criterion = 'entropy') #模型实例化
clf = clf.fit(Xtrain,Ytrain) 
score = clf.score(Xtest,Ytest)
score

得出score为0.9259259259259259

  1. 建立一棵树
feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']

import graphviz
dot_data = tree.export_graphviz(clf
                               ,out_file = None
                               ,feature_names= feature_name
                               ,class_names=["琴酒","雪莉","贝尔摩德"]
                               ,filled=True
                               ,rounded=True
                               )
                              	#fill参数是给决策树添加颜色
                              	#rounded参数是叶子的边框,注掉后边框变为方形
graph = graphviz.Source(dot_data)
graph

可以发现entropy是逐步下降的,最后为0,信息增益为0时,即指信息的纯度不能再提高了,也就没有再拆分分支的必要了

决策树原理整理

clf.feature_importances_ 
pd.concat([pd.DataFrame(clf.feature_importances_),pd.DataFrame(feature_name)],axis=1)  #看一下每个特征对决策树的贡献程度

决策树原理整理

在很多我们学过的算法,例如ID3/CART/C4.5,ANN神经网络,XGboost算法等,它们都是一种“贪心算法",所谓的贪心算法就是,在每一次分裂的过程中只考虑分裂时最优的节点去选择分支,而忽略了整体可能存在的一些问题。即通过局部最优来选择到达全局最优的这么一思想。
在分枝上的本质都还是追求某个不纯度相关的指标的优化,而正如我们提到的,不纯度是基于节点来计算的,也就是说,决策树在建树时,是靠优化节点来追求一棵优化的树,但最优的节点能够保证最优的树吗?集成算法被用来解决这个问题:sklearn表示,既然一棵树不能保证最优,那就建更多的不同的树,然后从中取最好的。怎样从一组数据集中建不同的树?在每次分枝时,不从使用全部特征,而是随机选取一部分特征,从中选取不纯度相关指标最优的作为分枝用的节点。这样,每次生成的树也就不同了。

2. random_state & splitter
random_state用来设置分枝中的随机模式的参数,默认None,在高维度时随机性会表现更明显,低维度的数据(比如鸢尾花数据集),随机性几乎不会显现。输入任意整数,会一直长出同一棵树,让模型稳定下来。

splitter也是用来控制决策树中的随机选项的,有两种输入值,输入”best",决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_查看),输入“random",决策树在分枝时会更加随机,树会因为含有更多的不必要信息而更深更大,并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合,用这两个参数来帮助你降低树建成之后过拟合的可能性。当然,树一旦建成,我们依然是使用剪枝参数来防止过拟合。

clf = tree.DecisionTreeClassifier(
                                criterion = 'entropy',
                                random_state = 30,
                                splitter = 'random'
                                )
clf = clf.fit(Xtrain,Ytrain)
score = clf.score(Xtest,Ytest)
score

得到的score为0.9444444444444444

3. 剪枝参数

在不加限制的情况下,一棵决策树会生长到衡量不纯度的指标最优,或者没有更多的特征可用为止。这样的决策树往往会过拟合,这就是说,它会在训练集上表现很好,在测试集上却表现糟糕。我们收集的样本数据不可能和整体的状况完全一致,因此当一棵决策树对训练数据有了过于优秀的解释性,它找出的规则必然包含了训练样本中的噪声,并使它对未知数据的拟合程度不足。
为了让决策树有更好的泛化性,我们要对决策树进行剪枝。剪枝策略对决策树的影响巨大,正确的剪枝策略是优化决策树算法的核心。sklearn为我们提供了不同的剪枝策略:

  • max depth
    限制树的最大深度,超过设定深度的树枝全部剪掉。
    这是用得最广泛的剪枝参数,在高维度低样本量时非常有效。决策树多生长一层,对样本量的需求会增加一倍,所以限制树深度能够有效地限制过拟合。在集成算法中也非常实用。实际使用时,建议从=3开始尝试,看看拟合的效果再决定是否增加设定深度。

  • min_samples_leaf & min_samples_split
    min_samples_leaf限定,一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本,否则分枝就不会发生,或者,分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生一般搭配max_depth使用,在回归树中有神奇的效果,可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合,设置得太大就会阻止模型学习数据。一般来说,建议从=5开始使用。如果叶节点中含有的样本量变化很大,建议输入浮点数作为样本量的百分比来使用。同时,这个参数可以保证每个叶子的最小尺寸,可以在回归问题中避免低方差,过拟合的叶子节点出现。对于类别不多的分类问题,=1通常就是最佳选择。
    min_samples_split限定,一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则分枝就不会发生。

  • max_features & min_impurity_decrease
    一般max_depth使用,用作树的”精修“
    max_features限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃。和max_depth异曲同工,
    max_features是用来限制高维度数据的过拟合的剪枝参数,但其方法比较暴力,是直接限制可以使用的特征数量而强行使决策树停下的参数,在不知道决策树中的各个特征的重要性的情况下,强行设定这个参数可能会导致模型学习不足。如果希望通过降维的方式防止过拟合,建议使用PCA,ICA或者特征选择模块中的降维算法。
    min_impurity_decrease限制信息增益的大小,信息增益小于设定数值的分枝不会发生。这是在0.19版本中更新的功能,在0.19版本之前时使用min_impurity_split。

  • 确认最优的剪枝参数:画学习曲线

score_test = [] #初始化score结果

import matplotlib.pyplot as plt

for i in range(0,10):
    clf = tree.DecisionTreeClassifier(criterion='entropy',
                                     max_depth=i+1,
                                     random_state=30,
                                     splitter='random')
    clf = clf.fit(Xtrain,Ytrain)
    score= clf.score(Xtest,Ytest)
    score_test.append(score)
    
plt.plot(range(1,11),score_test,color="red",label="max_depth")
plt.legend()
plt.show()

决策树原理整理

  • class_weight & min_weight_fraction_leaf

完成样本标签平衡的参数。样本不平衡是指在一组数据集中,标签的一类天生占有很大的比例。比如说,在银行要
判断“一个办了信用卡的人是否会违约”,就是是vs否(1%:99%)的比例。这种分类状况下,即便模型什么也不
做,全把结果预测成“否”,正确率也能有99%。因此我们要使用class_weight参数对样本标签进行一定的均衡,给
少量的标签更多的权重,让模型更偏向少数类,向捕获少数类的方向建模。该参数默认None,此模式表示自动给
与数据集中的所有标签相同的权重。
有了权重之后,样本量就不再是单纯地记录数目,而是受输入的权重影响了,因此这时候剪枝,就需要搭配min_
weight_fraction_leaf这个基于权重的剪枝参数来使用。另请注意,基于权重的剪枝参数(例如min_weight_
fraction_leaf)将比不知道样本权重的标准(比如min_samples_leaf)更少偏向主导类。如果样本是加权的,则使
用基于权重的预修剪标准来更容易优化树结构,这确保叶节点至少包含样本权重的总和的一小部分。

三、回归树的代码实现

class sklearn.tree.DecisionTreeRegressor (criterion=’mse’, splitter=’best’, max_depth=None,
min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None,
random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, presort=False)

几乎所有参数,属性及接口都和分类树一模一样。需要注意的是,在回归树种,没有标签分布是否均衡的问题,因
此没有class_weight这样的参数。

3.1 重要参数,属性及接口

上一篇:MVC+EF 多条件查询


下一篇:机器学习——集成学习