加入正则化项是如何减少过拟合的

过拟合时加入正则化项为什么能减少过拟合,提高模型泛化能力?   要降低模型的复杂度,来获得模型更好的泛化能力。而降低模型的复杂度有两条路径:一是进行降维,进行特征约减,这样可以减少模型参数的个数。二是对参数进行约束。使得参数的取值范围减少。而第二种方法就是加正则项。 增加了正则项之后,新的模型的假设空间会受到限制,此时模型的VC维会变小,也就是模型的泛化能力更强。 怎么做到的? 正则化(Regularization)包括L1、L2(L2 regularization也叫weight decay权重衰减) L2正则化 就是在代价函数后面再加上一个正则化项: 加入正则化项是如何减少过拟合的加入正则化项是如何减少过拟合的 C0代表原始的代价函数,后面那一项就是L2正则化项,它是这样来的:所有参数w的平方的和,除以训练集的样本大小n。λ就是正则项系数,权衡正则项与C0项的比重。另外还有一个系数1/2,1/2经常会看到,主要是为了后面求导的结果方便,后面那一项求导会产生一个2,与1/2相乘刚好凑整。 L2正则化项是怎么避免overfitting的呢?我们推导一下看看,先求导: 加入正则化项是如何减少过拟合的加入正则化项是如何减少过拟合的 可以发现L2正则化项对b的更新没有影响,但是对于w的更新有影响: 加入正则化项是如何减少过拟合的加入正则化项是如何减少过拟合的 在不使用L2正则化时,求导结果中w前系数为1,现在w前面系数为 1−ηλ/n ,因为η、λ、n都是正的,所以 1−ηλ/n小于1,它的效果是减小w,这也就是权重衰减(weight decay)的由来。当然考虑到后面的导数项,w最终的值可能增大也可能减小。   L1正则化 在原始的代价函数后面加上一个L1正则化项,即所有权重w的绝对值的和,乘以λ/n(这里不像L2正则化项那样,需要再乘以1/2,具体原因上面已经说过。) 加入正则化项是如何减少过拟合的加入正则化项是如何减少过拟合的 同样先计算导数: 加入正则化项是如何减少过拟合的加入正则化项是如何减少过拟合的 上式中sgn(w)表示w的符号。那么权重w的更新规则为: 加入正则化项是如何减少过拟合的加入正则化项是如何减少过拟合的 比原始的更新规则多出了η * λ * sgn(w)/n这一项。当w为正时,更新后的w变小。当w为负时,更新后的w变大——因此它的效果就是让w往0靠,使网络中的权重尽可能为0,也就相当于减小了网络复杂度,防止过拟合。 另外,上面没有提到一个问题,当w为0时怎么办?当w等于0时,|W|是不可导的,所以我们只能按照原始的未经正则化的方法去更新w,这就相当于去掉η*λ*sgn(w)/n这一项,所以我们可以规定sgn(0)=0,这样就把w=0的情况也统一进来了。(在编程的时候,令sgn(0)=0,sgn(w>0)=1,sgn(w<0)=-1)
上一篇:【虾皮面试手撕算法】:合并两个有序链表


下一篇:LeetCode 2. 两数相加