Bias/variance tradeoff

2022-12-18 11:15:24

线性回归中有欠拟合与过拟合，例如下图：则会形成欠拟合，则会形成过拟合。

尽管五次多项式会精确的预测训练集中的样本点，但在预测训练集中没有的数据，则不能很好的预测，也就是说有较大的泛化误差，上面的右边与左边的图都有很大的泛化误差，他们的情况各不相同，如果数据是非线性的，我们无法使用线性模型来精确的预测，即它的偏差很大，引起欠拟合。而如果像上面右图那样形成一个五次多项式的模型，很可能是我们的训练集数据很小的情况下建立的，它就不能反映出x与y更广泛的关系，这种模型有很大的偏差，引起过拟合。所以归根结底，学习算法其实就是找偏差方差的一个平衡点达到上面中图的效果。

在证明偏差方差权衡前先来介绍两个在推导时要用到的两个定理。

1.假设是k个不同的事件,P(A)代表事件发生的概率，那么，这对于学过概率论的同学肯定容易推到出来。

2.Hoeffding不等式是关于一组随机变量均值的概率不等式. 设为一组随机变量, , 定义一组随机变量的均值为

Hoeffding不等式可以表示为

如果为一组独立同分布的参数为p的伯努利分布随机变量上述不等式可以表示为

假设有一个训练集，样本服从独立同分布D，对于一个假设类h，定义训练误差为

定义泛化误差：

泛化误差即有一个新的样本点(x,y)服从分布D，类h判错这个样本的概率。使，通过选取θ来最小化训练误差的过程叫做经验风险最小化（empirical risk minimization (ERM)），

我们定义Η为假设类的集合

现在经验风险最小化可以改写为

对于有限的假设类集合，通过上面的描述泛化误差就是独立同分布随机变量的期望值，代入到Hoeffding不等式

这个式子表明了对于给定一个假设，假设样本数量m很大，泛化误差与训练误差很接近，应用到k个假设中

两边同时被1减去得到

对于给定一个γ和 ,至少多大的m能够保证,通过推导得到

定义, 是在集合H里面具有最小训练误差的假设，即，又根据，与最多相差一个，所以可以得出下列的推导步骤：

从而得到

这个不等式验证了本文一开始得出的结论，假设类的集合k增大时，minε(h)肯定是越来越小的，而第二项的对数式则随着k的增大而减小，k很小时就是前面所说的欠拟合的情况，相反k很大时即过拟合，两种情况都会导致泛化误差增大，我们要做的就是选择一个合适的k，来最小化泛化误差。