拓端tecdat：Python集成学习：自己编写构建AdaBoost分类模型可视化决策边界及sklearn包调用比较

2022-11-02 09:50:38

原文链接：http://tecdat.cn/?p=24421

原文出处：拓端数据部落公众号

AdaBoost是？

Boosting指的是机器学习元算法系列，它将许多 "弱 "分类器的输出合并成一个强大的 "集合"，其中每个弱分类器单独的错误率可能只比随机猜测好一点。

AdaBoost这个名字代表了自适应提升，它指的是一种特殊的提升算法，在这种算法中，我们适合一连串的 "树桩"（有一个节点和两个叶子的决策树），并根据它们预测的准确程度对它们的最终投票进行加权。在每个迭代之后，我们对数据集进行重新加权，对那些被前一个弱学习者错误分类的数据点给予更大的重视，这样，这些数据点在迭代t+1期间就会得到 "特别关注"。

它与随机森林相比如何？

特点	随机森林	AdaBoost
深度	无限（一棵完整的树）	树桩（带有 2 个叶子的单个节点）
树木生长	独立	依次
投票	相同	加权

AdaBoost 算法

A) 统一初始化样本权重为 .

B) 对于每次迭代 t：

找到ht(x) 最小化的弱学习器 .
我们根据其准确性为弱学习器设置权重：
增加错误分类观察的权重： .
重新归一化权重，使得 .

C）将最终预测作为弱学习器预测的加权多数票： .

绘图

我们将使用下面的函数来可视化我们的数据点，并可选择覆盖拟合 AdaBoost 模型的决策边界。

def plot(X: np.ndaay,
y: np.ndrry,
cf=None) -> None:
""" 绘制2D的±个样本，可选择决策边界 """
if not ax:
fig, ax = plt.sults(fgsze=(5, 5), di=100)
pad = 1
x_min, x_max = X[:, 0].min() - pad, X[:, 0].max() + pad
y_min, y_max = X[:, 1].min() - pad, X[:, 1].max() + pad
if saligs is not None:
sies = np.array(spl_wigts) * X.hae[0] * 100
else:
sze = np.oes(sape=X.shpe[0]) * 100
if cf:
xx, yy = np.ehrid(n.aange(x_min, x_max, plot_step),
p.aang(y_min, y_max, plot_step))
pdt(np.c_[xx.ravel(), yy.ravel()])
# 如果所有的预测都是正类，则相应地调整颜色图。
if list(np.niue(Z)) == [1]:
colors = ['r']
else:
colors = ['b', 'r']
ax.st_im(in+0.5, _ax-0.5)
ax.st_lm(ymin+0.5, yax-0.5)

数据集

我们将使用类似的方法生成一个数据集，但使用较少的数据点。这里的关键是我们想要两个不可线性分离的类，因为这是 AdaBoost 的理想用例。

def maketat(n: it = 100, rased: it = None):
""" 生成一个用于评估AdaBoost分类器的数据集 """
nclas = int(n/2)
if ranmed:
np.ram.sed(rndoed)
X, y = me_gainqnes(n=n, n_fees=2, n_css=2)
plot(X, y)

使用 scikit-learn 进行基准测试

让我们通过从scikit-learn导入AdaBoostClassifier，并将其拟合到我们的数据集上，来建立一个基准，看看我们的模型的输出应该是什么样子的。

from skarn.esele import AdosClaser
bnh = Adostlier(netrs=10, atm='SAMME').fit(X, y)
plat(X, y, bech)
tnr = (prdict(X) != y).man()

分类器在 10 次迭代中完全拟合训练数据集，我们数据集中的数据点被合理分离。

编写自己的AdaBoost分类器

下面是我们的AdaBoost分类器的框架代码。拟合模型后，我们将把所有的关键属性保存到类中--包括每次迭代的样本权重--这样我们就可以在以后检查它们，以了解我们的算法在每一步的作用。

下表显示了我们将使用的变量名称和前面在算法描述中使用的数学符号之间的映射。

变量	数学
`sampleweight`	wi(t)
`stump`	ht(x)
`stumpweight`	αt
`error`	εt
`predict(X)`	Ht(x)

class AdBst:
""" AdaBoost分类器 """
def __init__(self):
self.sump = None
self.stup_weght = None
self.erro = None
self.smle_weih = None
def _ceck_X_y(self, X, y):
""" 验证关于输入数据格式的假设"""
assrt st(y) == {-1, 1}
reurn X, y

拟合模型

回想一下我们的算法来拟合模型：

找到ht(x) 最小化的弱学习器 .
我们根据其准确性为弱学习器设置权重：
增加错误分类观察的权重： . 注意当假设与标签一致时将评估为 +1，当它与标签不一致时将评估为 -1。
重新归一化权重，使得 .

下面的代码本质上是上面的一对一的实现，但是有几点需要注意：

由于这里的重点是理解AdaBoost的集合元素，我们将调用DecinTeassfir(mxdpth=1, mlefnes=2)实现挑选每个ht(x)的逻辑。
我们在 for 循环之外设置初始统一样本权重，并在每次迭代 t 内设置 t+1 的权重，除非它是最后一次迭代。我们在这里特意在拟合模型上保存一组样本权重，以便我们以后可以在每次迭代时可视化样本权重。