机器学习-防止过拟合

过拟合的表现:模型在训练集上表现很好,但是在测试集上表现较差。模型泛化能力弱

获取更多数据,data augmentation

data augmentation :图像剪裁,旋转,扭曲,平移,反转,缩放。

选择合适的模型,限制模型的复杂度

正则化

dropout

dropout: rescale 要保证输出的期望不会变

Z = Wa + b ,如果20% a被dropout了,那么Wa 只是原来期望值的80%,所以需要Wa/prob_keep. 反向传播的时候也需要。inference的时候不需要。

dropout 为什么能够work

  1. 相当于训练多个网络,是一种集成,或者平均。
  2. 参数不会同时出现,避免学习到一个局部特征。避免共适应。

easy stop

验证集先降后升,在低点停掉。

增加噪声,提高抗干扰能力

输入增加噪声,网络参数增加噪声

集成的方法

1.bagging
2.boosting

上一篇:防止过拟合-Dropout2d


下一篇:CS224n自然语言处理(四)——单词表示及预训练,transformer和BERT