深度学习模型优化:非饱和激活函数(ReLu)与梯度截断(Gradient Clipping)、网络参数的初始化
参数初始化时:
1、全零/全一,完全一样权重的,不希望发生;
2、随机初始化,容易造成激活函数饱和;
3、Xavier初始化;
4、He初始化(ReLu);
5、Pre-train初始化(迁移学习),被迁移学习的应该已经在大量的服务器中的海量数据
批量规范化(Batch Normalization),防止梯度消失,梯度爆炸的有效优化方法;
1、防止graqdient vanish
2、解决了Internal Covariate Shift 的问题,可能提高学习效率;
3、减少了对于好的权重初始化的依赖;
4、有助于解决overfitting。
训练未收敛
优化方法:
1、调整学习速率/学习速率;
2、批训练,将数据切成多个batch,直到Step遍历所有的batch
1)、可以提高训练速度;
2)、对训练过程引入随机性;
3、优化器的使用-动量梯度下降法(gradient descent with momentum);
RMSProp优化器,应用于 alpha狗学习下围棋;
自适应矩估计Adam优化器。