李航《统计学习方法》第2版 第8章课后习题答案


习题8.1


因计算量较大,所以这题用编程实现。
我们先来看下课本例题8.1不是习题8.1,该题x只有1个特征,习题8.1中x有3个特征。

对于例题8.1的实现代码如下(算法即书中的AdaBoost算法8.1)
弱分类器由x<v或x>v产生;此可看作是由一个根节点直接连接两个叶结点的简单决策树,即所谓的决策树桩。

"""
	自编程实现课本例题8.1
"""


import numpy as np

class AdaBoost:
	def __init__(self, x, y, tol=0.05, max_iter=10):
		self.x = x
		self.y = y
		self.tol = tol
		self.max_iter = max_iter

		self.w = np.full((x.shape[0]), 1/x.shape[0]) #初始化权重为1/N
		self.alpha = []
		self.G = []

		self.min_v = min(x)-0.5  #分类阈值下界
		self.max_v = max(x)+0.5  #分类阈值上界

	def _class(self):
		"""以带权重的分类误差最小为目标,选择最佳分类阈值"""
		e_min = np.inf  #分类误差率
		v_best = None  #最佳分类阈值
		sign = None  # sign 小于分类阈值的样本属于的标签类别(即x<v时,y=sign)
		for v in np.arange(self.min_v, self.max_v+0.5, 1):
			#即一开始我不知道在分类阈值v的左边是1还是-1
			#所以这里先假设在左边x<v时y=1
			e_1 = -(self.y[self.x<v]-1)*self.w[self.x<v]   #因为被分错的话是-1-1=-2的所以这里是x<v时分类误差率的两倍
			e_2 = (self.y[self.x > v] + 1) * self.w[self.x > v]

			#e_1.sum() + e_2.sum()是分类误差率的两倍, 所以除2就是分类误差
			e = (e_1.sum() + e_2.sum()) / 2

			#看书157页公式可知,分类误差率e是在[0, 1]区间上的
			#所以小于0.5的话,就是x<v,y=1没错;若大于0.5,说明x<v时应该是,y=-1
			if e<0.5:
				flag = 1

			else:
				e = 1-e  #因为分类误差率最大为1,只要x<v,x>v时,y=1与y=-1调换就相当于1-e就是新的分离误差率了
				flag = -1


			#比较筛选哪个v使分类误差率最小,那那个就是最优的v
			if e<e_min:
				e_min = e
				sign = flag
				v_best = v

		return v_best, sign, e_min


	def update_w(self):
		"""更新样本权重"""
		#根据上一轮的弱分类器更新样本权重
		v,sign = self.G[-1]
		alpha = self.alpha[-1]
		#重建弱分类器
		G = np.zeros(self.y.size, dtype=int)
		G[self.x<v] = sign
		G[self.x > v] = -sign
		#更新样本权重
		temp = self.w*np.exp(-alpha*self.y*G)
		self.w = temp/temp.sum()



	def base_estimator(self, x ,i):
		v, sign = self.G[i]
		_G_1 = np.full((np.where(x<v))[0].shape[0], sign)
		_G_2 = np.full((np.where(x>v))[0].shape[0], -sign)

		_G = np.hstack([_G_1, _G_2])

		return _G

	def fit(self):
		G=0
		for i in range(self.max_iter):
			class_v, sign, e = self._class()
			alpha = (np.log((1-e)/e))/2   #计算本轮弱分类器的系数
			self.alpha.append(alpha)  # 保存弱分类器系数
			self.G.append((class_v, sign))  # 保存弱分类器


			#下面计算总分类器加权和是否达到分类允许的误差tol,不满足则继续更新样本权重,创建新的弱分类器
			_G = self.base_estimator(self.x, i)

			G += alpha*_G
			y_predict = np.sign(G)
			error_rate = np.sum(np.abs(y_predict-self.y))/2/self.y.shape[0]

			if error_rate < self.tol:
				print("迭代次数:", i+1)
				break
			else:
				self.update_w()

	def predict(self, x):
		G=0
		#遍历所有弱分类器,加权求和
		for i in range(len(self.alpha)):
			_G = self.base_estimator(x, i)
			alpha = self.alpha[i]
			G += alpha*_G
		y_predict = np.sign(G)
		return y_predict.astype(int)

	def score(self, x, y):
		y_predict = self.predict(x)
		error_rate = np.sum(np.abs(y_predict - y)) / 2 / y.shape[0]
		return 1 - error_rate


def main():
	x = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
	y = np.array([1, 1, 1, -1, -1, -1, 1, 1, 1, -1])

	clf = AdaBoost(x, y)
	clf.fit()
	y_predict = clf.predict(x)
	score = clf.score(x, y)

	print("原始输出:", y)
	print("预测输出:", y_predict)
	print("预测正确率:{:.2%}".format(score))


if __name__ == '__main__':
	main()

对于习题8.1,一个道理。这里分别用sklearn实现和自编程实现:
李航《统计学习方法》第2版 第8章课后习题答案
sklearn实现代码:

"""
	sklearn 实现课本习题8.1
"""

from sklearn.ensemble import AdaBoostClassifier
import numpy as np

def main():
	# X=np.array([0,1,2,3,4,5,6,7,8,9]).reshape(10,1)
	# y=np.array([1,1,1,-1,-1,-1,1,1,1,-1])
	X=np.array([[0,1,3],
			[0,3,1],
			[1,2,2],
			[1,1,3],
			[1,2,3],
			[0,1,2],
			[1,1,2],
			[1,1,1],
			[1,3,1],
			[0,2,1]
		   ])
	y=np.array([-1,-1,-1,-1,-1,-1,1,1,-1,-1])

	clf = AdaBoostClassifier()
	clf.fit(X, y)
	y_predict = clf.predict(X)
	score = clf.score(X, y)
	print("原始输出:", y)
	print("预测输出:", y_predict)
	print("预测正确率:{:.2%}".format(score))


if __name__ == "__main__":
	main()

自编程实现:
其实特征有多个维度时,对每个特征进行遍历,寻找用于划分的最合适的特征,每个特征划分时都要找个最佳的划分阈值。
然后比较,返回最佳划分阈值,以及其对应的特征(通过第几维特征的最佳划分阈值划分能够使分类误差率最小)
下面代码参考自:参考链接

# -*-coding:utf-8 -*-
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits import mplot3d
def loadSimpData():
    """
    创建单层决策树的数据集
    Parameters:
        无
    Returns:
        dataMat - 数据矩阵
        classLabels - 数据标签
    """
    dataMat = np.matrix([[0., 1., 3.],
                      [0., 3., 1.],
                      [1., 2., 2.],
                      [1., 1., 3.],
                      [1., 2., 3.],
                      [0., 1., 2.],
                      [1., 1., 2.],
                      [1., 1., 1.],
                      [1., 3., 1.],
                      [0., 2., 1.]])
    classLabels = np.matrix([-1.0, -1.0, -1.0, -1.0, -1.0, -1.0, 1.0, 1.0, -1.0, -1.0])
    return dataMat, classLabels

def showDataSet(dataMat, labelMat):
    """
    数据可视化
    Parameters:
        dataMat - 数据矩阵
        labelMat - 数据标签
    Returns:
        无
    """
    ax = plt.axes(projection='3d')
    data_plus = []  #正样本
    data_minus = [] #负样本
    labelMat = labelMat.T   #label矩阵转置
    #将数据集分别存放到正负样本的矩阵
    for i in range(len(dataMat)):
        if labelMat[i] > 0:
            data_plus.append(dataMat[i])
        else:
            data_minus.append(dataMat[i])
    data_plus_np = np.array(data_plus)      #转换为numpy矩阵
    data_minus_np = np.array(data_minus)    #转换为numpy矩阵
    ax.scatter(np.transpose(data_plus_np)[0], np.transpose(data_plus_np)[1], np.transpose(data_plus_np)[2], c='r')        #正样本散点图
    ax.scatter(np.transpose(data_minus_np)[0], np.transpose(data_minus_np)[1], np.transpose(data_minus_np)[2], c='b')     #负样本散点图
    plt.show()

def stumpClassify(dataMatrix, dimen, threshVal, threshIneq):
    """
    单层决策树分类函数
    Parameters:
        dataMatrix - 数据矩阵
        dimen - 第dimen列,也就是第几个特征
        threshVal - 阈值
        threshIneq - 标志
    Returns:
        retArray - 分类结果
    """
    retArray = np.ones((np.shape(dataMatrix)[0], 1))  # 初始化retArray为1
    if threshIneq == 'lt':
        retArray[dataMatrix[:, dimen] <= threshVal] = -1.0  # 如果小于阈值,则赋值为-1
    else:
        retArray[dataMatrix[:, dimen] > threshVal] = -1.0  # 如果大于阈值,则赋值为-1
    return retArray

def buildStump(dataArr, classLabels, D):
    """
    找到数据集上最佳的单层决策树
    Parameters:
        dataArr - 数据矩阵
        classLabels - 数据标签
        D - 样本权重
    Returns:
        bestStump - 最佳单层决策树信息
        minError - 最小误差
        bestClasEst - 最佳的分类结果
    """
    dataMatrix = np.mat(dataArr)
    labelMat = np.mat(classLabels).T
    m, n = np.shape(dataMatrix)
    numSteps = 10.0
    bestStump = {}
    bestClasEst = np.mat(np.zeros((m, 1)))
    minError = float('inf')  # 最小误差初始化为正无穷大
    for i in range(n):  # 遍历所有特征
        rangeMin = dataMatrix[:, i].min()
        rangeMax = dataMatrix[:, i].max()  # 找到特征中最小的值和最大值
        stepSize = (rangeMax - rangeMin) / numSteps  # 计算步长
        for j in range(-1, int(numSteps) + 1):
            for inequal in ['lt', 'gt']:  # 大于和小于的情况,均遍历。lt:less than,gt:greater than
                threshVal = (rangeMin + float(j) * stepSize)  # 计算阈值
                predictedVals = stumpClassify(dataMatrix, i, threshVal, inequal)  # 计算分类结果
                errArr = np.mat(np.ones((m, 1)))  # 初始化误差矩阵
                errArr[predictedVals == labelMat] = 0  # 分类正确的,赋值为0
                weightedError = D.T * errArr  # 计算误差
                print("split: dim %d, thresh %.2f, thresh ineqal: %s, the weighted error is %.3f" % (
                i, threshVal, inequal, weightedError))
                if weightedError < minError:  # 找到误差最小的分类方式
                    minError = weightedError
                    bestClasEst = predictedVals.copy()
                    bestStump['dim'] = i
                    bestStump['thresh'] = threshVal
                    bestStump['ineq'] = inequal
    return bestStump, minError, bestClasEst

def adaBoostTrainDS(dataArr, classLabels, numIt=40):
    """
    完整决策树训练
    Parameters:
        dataArr - 数据矩阵
        classLabels - 数据标签
        numIt - 默认迭代次数
    Returns:
        weakClassArr- 完整决策树信息
        aggClassEst- 最终训练数据权值分布
    """
    weakClassArr = []
    m = np.shape(dataArr)[0]
    D = np.mat(np.ones((m, 1)) / m)  # 初始化权重
    aggClassEst = np.mat(np.zeros((m, 1)))
    for i in range(numIt):
        bestStump, error, classEst = buildStump(dataArr, classLabels, D)  # 构建单层决策树
        print("D:", D.T)
        alpha = float(0.5 * np.log((1.0 - error) / max(error, 1e-16)))  # 计算弱学习算法权重alpha,使error不等于0,因为分母不能为0
        bestStump['alpha'] = alpha  # 存储弱学习算法权重
        weakClassArr.append(bestStump)  # 存储单层决策树
        print("classEst: ", classEst.T)
        expon = np.multiply(-1 * alpha * np.mat(classLabels).T, classEst)  # 计算e的指数项
        D = np.multiply(D, np.exp(expon))
        D = D / D.sum()  # 根据样本权重公式,更新样本权重
        # 计算AdaBoost误差,当误差为0的时候,退出循环
        aggClassEst += alpha * classEst
        print("aggClassEst: ", aggClassEst.T)
        aggErrors = np.multiply(np.sign(aggClassEst) != np.mat(classLabels).T, np.ones((m, 1)))  # 计算误差
        errorRate = aggErrors.sum() / m
        print("total error: ", errorRate)
        if errorRate == 0.0:
            break  # 误差为0,退出循环
    return weakClassArr, aggClassEst

if __name__ == '__main__':
    dataArr, classLabels = loadSimpData()
    #showDataSet(dataArr, classLabels)
    weakClassArr, aggClassEst = adaBoostTrainDS(dataArr, classLabels)
    print(weakClassArr)
    print(aggClassEst)


习题8.2


李航《统计学习方法》第2版 第8章课后习题答案

关于用AdaBoost实现mnist数据集分类请参考:
李航《统计学习方法》第2版 第8章 AdaBoost模型 实现mnist数据集分类

上一篇:Predict the Winner


下一篇:Machine Learning(1)