gbdt xgboost 贼难理解！

2022-10-19 11:17:32

https://www.zybuluo.com/yxd/note/611571

https://zhuanlan.zhihu.com/p/29765582

gbdt 在看统计学习方法的时候理解很吃力。参考了以上两篇文章，作者写的非常好。

冒昧转载过来。

机器学习-一文理解GBDT的原理-20171001

现在网上介绍gbdt算法的文章并不算少，但总体看下来，千篇一律的多，能直达精髓的少，有条理性的就更稀少了。我希望通过此篇文章，能抽丝剥茧般的向初学者介绍清楚这个算法的原理所在。如果仍不清楚可以在文后留言。

1、如何在不改变原有模型的结构上提升模型的拟合能力

假设现在你有样本集 gbdt xgboost 贼难理解！，然后你用一个模型，如去拟合这些数据，使得这批样本的平方损失函数（即）最小。但是你发现虽然模型的拟合效果很好，但仍然有一些差距，比如预测值 =0.8，而真实值 =0.9， =1.4， =1.3等等。另外你不允许更改原来模型 gbdt xgboost 贼难理解！的参数，那么你有什么办法进一步来提高模型的拟合能力呢。

既然不能更改原来模型的参数，那么意味着必须在原来模型的基础之上做改善，那么直观的做法就是建立一个新的模型 gbdt xgboost 贼难理解！来拟合未完全拟合真实样本的残差，即。所以对于每个样本来说，拟合的样本集就变成了： .

2、基于残差的gbdt

在第一部分， gbdt xgboost 贼难理解！被称为残差，这一部分也就是前一模型（）未能完全拟合的部分，所以交给新的模型来完成。

我们知道gbdt的全称是Gradient Boosting Decision Tree，其中gradient被称为梯度，更一般的理解，可以认为是一阶导，那么这里的残差与梯度是什么关系呢。在第一部分，我们提到了一个叫做平方损失函数的东西，具体形式可以写成 gbdt xgboost 贼难理解！，熟悉其他算法的原理应该知道，这个损失函数主要针对回归类型的问题，分类则是用熵值类的损失函数。具体到平方损失函数的式子，你可能已经发现它的一阶导其实就是残差的形式，所以基于残差的gbdt是一种特殊的gbdt模型，它的损失函数是平方损失函数，常用来处理回归类的问题。具体形式可以如下表示：

gbdt xgboost 贼难理解！

损失函数的一阶导：

gbdt xgboost 贼难理解！

正好残差就是负梯度：

gbdt xgboost 贼难理解！

3、为什么基于残差的gbdt不是一个好的选择

基于残差的gbdt在解决回归问题上不算是一个好的选择，一个比较明显的缺点就是对异常值过于敏感。我们来看一个例子：

gbdt xgboost 贼难理解！

很明显后续的模型会对第4个值关注过多，这不是一种好的现象，所以一般回归类的损失函数会用绝对损失或者huber损失函数来代替平方损失函数：

gbdt xgboost 贼难理解！

4、Boosting的加法模型

如前面所述，gbdt模型可以认为是是由k个基模型组成的一个加法运算式：

gbdt xgboost 贼难理解！

其中F是指所有基模型组成的函数空间。

那么一般化的损失函数是预测值 gbdt xgboost 贼难理解！与真实值之间的关系，如我们前面的平方损失函数，那么对于n个样本来说，则可以写成：

gbdt xgboost 贼难理解！

更一般的，我们知道一个好的模型，在偏差和方差上有一个较好的平衡，而算法的损失函数正是代表了模型的偏差面，最小化损失函数，就相当于最小化模型的偏差，但同时我们也需要兼顾模型的方差，所以目标函数还包括抑制模型复杂度的正则项，因此目标函数可以写成：

gbdt xgboost 贼难理解！

其中 gbdt xgboost 贼难理解！代表了基模型的复杂度，若基模型是树模型，则树的深度、叶子节点数等指标可以反应树的复杂程度。

对于Boosting来说，它采用的是前向优化算法，即从前往后，逐渐建立基模型来优化逼近目标函数，具体过程如下：

gbdt xgboost 贼难理解！

那么，在每一步，如何学习一个新的模型呢，答案的关键还是在于gbdt的目标函数上，即新模型的加入总是以优化目标函数为目的的。

我们以第t步的模型拟合为例，在这一步，模型对第 gbdt xgboost 贼难理解！个样本的预测为：

gbdt xgboost 贼难理解！

其中 gbdt xgboost 贼难理解！就是我们这次需要加入的新模型，即需要拟合的模型，此时，目标函数就可以写成：

gbdt xgboost 贼难理解！

即此时最优化目标函数，就相当于求得了 gbdt xgboost 贼难理解！。

5、什么是gbdt的目标函数

我们知道泰勒公式中，若 gbdt xgboost 贼难理解！很小时，我们只保留二阶导是合理的（gbdt是一阶导，xgboost是二阶导，我们以二阶导为例，一阶导可以自己去推，因为更简单），即：

gbdt xgboost 贼难理解！

那么在等式（1）中，我们把 gbdt xgboost 贼难理解！看成是等式（2）中的x，看成是，因此等式（1）可以写成：

gbdt xgboost 贼难理解！

其中 gbdt xgboost 贼难理解！为损失函数的一阶导，为损失函数的二阶导，注意这里的导是对求导。我们以平方损失函数为例，则，。

由于在第t步 gbdt xgboost 贼难理解！其实是一个已知的值，所以是一个常数，其对函数优化不会产生影响，因此，等式（3）可以写成：

gbdt xgboost 贼难理解！

所以我么只要求出每一步损失函数的一阶和二阶导的值（由于前一步的 gbdt xgboost 贼难理解！是已知的，所以这两个值就是常数）代入等式4，然后最优化目标函数，就可以得到每一步的，最后根据加法模型得到一个整体模型。

6、如何用决策树来表示上一步的目标函数

假设我们boosting的基模型用决策树来实现，则一颗生成好的决策树，即结构确定，也就是说树的叶子结点其实是确定了的。假设这棵树的叶子结点有 gbdt xgboost 贼难理解！片叶子，而每片叶子对应的值。熟悉决策树的同学应该清楚，每一片叶子结点中样本的预测值都会是一样的，在分类问题中，是某一类，在回归问题中，是某一个值（在gbdt中都是回归树，即分类问题转化成对概率的回归了），那么肯定存在这样一个函数 gbdt xgboost 贼难理解！，即将中的每个样本映射到每一个叶子结点上，当然和我们都是不知道的，但我们也不关心，这里只是说明一下决策树表达数据结构的方法是怎么样的，不理解也没有问题。