数据分析模型之决策树及随机森林

决策树

数据分析模型之决策树及随机森林

信息熵

熵原本是物理学中的⼀个定义,后来⾹农将其引申到了信息论领域,⽤来表示信息量的⼤⼩。信息量越⼤(分类越不“纯净”),对应的熵值就越⼤,反之亦然。

条件熵

条件熵 H(X|Y) 表示在已知随机变量Y的条件下,随机变量 X 的不确定性。

信息增益

数据分析模型之决策树及随机森林

信息增益率

决策树中的ID3算法使⽤信息增益指标实现根节点或中间节点的字段选择,但是该指标存在⼀个⾮常明显的缺点,即信息增益会偏向于取值较多的字段。为了克服信息增益指标的缺点,提出了信息增益率的概念,它的思想很简单,就是在信息增益的基础上进⾏相应的惩罚。

决策树函数模型

DecisionTreeClassifier(criterion='gini', splitter='best',
max_depth=None,min_samples_split=2,
min_samples_leaf=1,max_leaf_nodes=None,
class_weight=None)
max_leaf_nodes:⽤于指定最⼤的叶节点个数,默认为None,表示对叶节点个数不做任何限制
class_weight:⽤于指定因变量中类别之间的权重,默认为None,表示每个类别的权重都相等;如果
为balanced,则表示类别权重与原始样本中类别的⽐例成反⽐;还可以通过字典传递类别之间的权重
差异,其形式为{class_label:weight}

随机森林

数据分析模型之决策树及随机森林

随机森林函数模型

RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None,
min_samples_split=2, min_samples_leaf=1,
max_leaf_nodes=None, bootstrap=True, class_weight=None)
n_estimators:⽤于指定随机森林所包含的决策树个数
criterion:⽤于指定每棵决策树节点的分割字段所使⽤的度量标准,⽤于分类的随机森林,默认的
criterion值为'gini';⽤于回归的随机森林,默认的criterion值为'mse'
max_depth:⽤于指定每棵决策树的最⼤深度,默认不限制树的⽣⻓深度
min_samples_split:⽤于指定每棵决策树根节点或中间节点能够继续分割的最⼩样本量,默认为2
min_samples_leaf:⽤于指定每棵决策树叶节点的最⼩样本量,默认为1
max_leaf_nodes:⽤于指定每棵决策树最⼤的叶节点个数,默认为None,表示对叶节点个数不做任
何限制
bootstrap:bool类型参数,是否对原始数据集进⾏bootstrap抽样,⽤于⼦树的构建,默认为True
class_weight:⽤于指定因变量中类别之间的权重,默认为None,表示每个类别的权重都相等

实战

  # 读⼊数据
  Titanic = pd.read_csv(r'Titanic.csv')
  # 删除⽆意义的变量,并检查剩余变量是否含有缺失值
  Titanic.drop(['PassengerId','Name','Ticket','Cabin'], axis = 1, inplace = True)
  Titanic.isnull().sum(axis = 0)
  # 对Sex分组,⽤各组乘客的平均年龄填充各组中的缺失年龄
  fillna_Titanic = []
  for i in Titanic.Sex.unique():
  update = Titanic.loc[Titanic.Sex == i,].fillna(value = {'Age': Titanic.Age[Titanic.Sex == i].mean()}, inplace
  = False)
  fillna_Titanic.append(update)
  Titanic = pd.concat(fillna_Titanic)
  # 使⽤Embarked变量的众数填充缺失值
  Titanic.fillna(value = {'Embarked':Titanic.Embarked.mode()[0]}, inplace=True)
  # 将数值型的Pclass转换为类别型,否则⽆法对其哑变量处理
  Titanic.Pclass = Titanic.Pclass.astype('category')
  # 哑变量处理
  dummy = pd.get_dummies(Titanic[['Sex','Embarked','Pclass']])
  # ⽔平合并Titanic数据集和哑变量的数据集
  Titanic = pd.concat([Titanic,dummy], axis = 1)
  # 删除原始的Sex、Embarked和Pclass变量
  Titanic.drop(['Sex','Embarked','Pclass'], inplace=True, axis = 1)
  # 取出所有⾃变量名称
  predictors = Titanic.columns[1:]
  # 将数据集拆分为训练集和测试集,且测试集的⽐例为25%
  X_train, X_test, y_train, y_test = model_selection.train_test_split(Titanic[predictors], Titanic.Survived,
  test_size = 0.25, random_state = 1234)
  # 预设各参数的不同选项值
  max_depth = [2,3,4,5,6]
  min_samples_split = [2,4,6,8]
  min_samples_leaf = [2,4,8,10,12]
  # 将各参数值以字典形式组织起来
  parameters = {'max_depth':max_depth, 'min_samples_split':min_samples_split,
  'min_samples_leaf':min_samples_leaf}
  # ⽹格搜索法,测试不同的参数值
  grid_dtcateg = GridSearchCV(estimator = tree.DecisionTreeClassifier(), param_grid = parameters, cv=10)
  # 模型拟合
  grid_dtcateg.fit(X_train, y_train)
  # 返回最佳组合的参数值
  grid_dtcateg.best_params
  # 构建分类决策树
  CART_Class = tree.DecisionTreeClassifier(max_depth=3,min_samples_leaf=4,min_samples_split=2)
  # 模型拟合
  decision_tree = CART_Class.fit(X_train,y_train)
  # 模型在测试集上的预测
  pred = CART_Class.predict(X_test)
  # 模型的准确率
  print(‘模型在测试集的预测准确率:\n',metrics.accuracy_score(y_test,pred))
  print('模型在训练集的预测准确率:\n',
  metrics.accuracy_score(y_train,ꢀCART_Class.predict(X_train)))
  # 构建随机森林
  RF_class = ensemble.RandomForestClassifier(n_estimators=200,random_state=1234)
  # 随机森林的拟合
  RF_class.fit(X_train,y_train)
  # 模型在测试集上的预测
  RFclass_pred = RF_class.predict(X_test)
  # 模型的准确率
  print(‘模型在测试集的预测准确率:\n',metrics.accuracy_score(y_test.RFclass_pred))
上一篇:【CF932F】Escape Through Leaf


下一篇:LeetCode 872 Leaf-Similar Trees 解题报告