深度学习模型优化

深度学习模型优化:非饱和激活函数(ReLu)与梯度截断(Gradient Clipping)、网络参数的初始化

参数初始化时:

1、全零/全一,完全一样权重的,不希望发生;

2、随机初始化,容易造成激活函数饱和;

3、Xavier初始化;

4、He初始化(ReLu);

5、Pre-train初始化(迁移学习),被迁移学习的应该已经在大量的服务器中的海量数据

批量规范化(Batch Normalization),防止梯度消失,梯度爆炸的有效优化方法;

1、防止graqdient vanish

2、解决了Internal Covariate Shift 的问题,可能提高学习效率;

3、减少了对于好的权重初始化的依赖;

4、有助于解决overfitting。

训练未收敛

优化方法:

1、调整学习速率/学习速率;

2、批训练,将数据切成多个batch,直到Step遍历所有的batch

      1)、可以提高训练速度;

      2)、对训练过程引入随机性;

3、优化器的使用-动量梯度下降法(gradient descent with momentum);

       RMSProp优化器,应用于 alpha狗学习下围棋;

       自适应矩估计Adam优化器。

上一篇:神经网络基础以及激活函数,以及梯度下降


下一篇:「深度学习一遍过」必修14:基于pytorch研究深度可分离卷积与正常卷积的性能差异