线性回归中有欠拟合与过拟合,例如下图: 则会形成欠拟合, 则会形成过拟合。
尽管五次多项式会精确的预测训练集中的样本点,但在预测训练集中没有的数据,则不能很好的预测,也就是说有较大的泛化误差,上面的右边与左边的图都有很大的泛化误差,他们的情况各不相同,如果数据是非线性的,我们无法使用线性模型来精确的预测,即它的偏差很大,引起欠拟合。而如果像上面右图那样形成一个五次多项式的模型,很可能是我们的训练集数据很小的情况下建立的,它就不能反映出x与y更广泛的关系,这种模型有很大的偏差,引起过拟合。所以归根结底,学习算法其实就是找偏差方差的一个平衡点达到上面中图的效果。
在证明偏差方差权衡前先来介绍两个在推导时要用到的两个定理。
1.假设 是k个不同的事件,P(A)代表事件发生的概率,那么,这对于学过概率论的同学肯定容易推到出来。
2.Hoeffding不等式是关于一组随机变量均值的概率不等式. 设为一组随机变量, , 定义一组随机变量的均值为
Hoeffding不等式可以表示为
如果为一组独立同分布的参数为p的伯努利分布随机变量上述不等式可以表示为
假设有一个训练集 ,样本服从独立同分布D,对于一个假设类h,定义训练误差为
定义泛化误差:
泛化误差即有一个新的样本点(x,y)服从分布D,类h判错这个样本的概率。使 ,通过选取θ来最小化训练误差的过程叫做经验风险最小化(empirical risk minimization (ERM)),
我们定义Η为假设类的集合
现在经验风险最小化可以改写为
对于有限的假设类集合,通过上面的描述泛化误差就是独立同分布随机变量的期望值,代入到Hoeffding不等式
这个式子表明了对于给定一个假设 ,假设样本数量m很大,泛化误差与训练误差很接近,应用到k个假设中
两边同时被1减去得到
对于给定一个γ和 ,至少多大的m能够保证,通过推导得到
定义, 是在集合H里面具有最小训练误差的假设,即,又根据, 与 最多相差一个 ,所以可以得出下列的推导步骤:
从而得到
这个不等式验证了本文一开始得出的结论,假设类的集合k增大时,minε(h)肯定是越来越小的,而第二项的对数式则随着k的增大而减小,k很小时就是前面所说的欠拟合的情况,相反k很大时即过拟合,两种情况都会导致泛化误差 增大,我们要做的就是选择一个合适的k,来最小化泛化误差。