何为优化?
找个loss surface的最小值
On-line一次可以拿到一组训练资料,Off-line一次拿到所有的训练资料
Gradient的方向就是L增加的方法,所以我们要往反方向走,就是L减少的方向走,目标找到一个可以有最小的L
复习一下SGD
加入了动量之后
Adagard
RMSProp
相比于Adagrad,如果Adagrad刚开始g很大,导致learning rate 一直很小,就会很容易卡住;RMSProp就很好的解决了这个问题,这个Optimizer不会在走没几步以后就因为前几步
gradient太大,所以停下来
Adam
对比一下Adam和SGDM