过拟合的表现:模型在训练集上表现很好,但是在测试集上表现较差。模型泛化能力弱
获取更多数据,data augmentation
data augmentation :图像剪裁,旋转,扭曲,平移,反转,缩放。
选择合适的模型,限制模型的复杂度
正则化
dropout
dropout: rescale 要保证输出的期望不会变
Z = Wa + b ,如果20% a被dropout了,那么Wa 只是原来期望值的80%,所以需要Wa/prob_keep. 反向传播的时候也需要。inference的时候不需要。
dropout 为什么能够work
- 相当于训练多个网络,是一种集成,或者平均。
- 参数不会同时出现,避免学习到一个局部特征。避免共适应。
easy stop
验证集先降后升,在低点停掉。
增加噪声,提高抗干扰能力
输入增加噪声,网络参数增加噪声
集成的方法
1.bagging
2.boosting