Learning Rate:
Learning Rate :决定梯度是否能收敛到最低点。学习率过大,梯度可能无法收敛;学习率过小,梯度收敛速度缓慢。
下面这两行式子是学习率固定时的参数调整。我们目前只看一个参数 θ(i),在第 t 次迭代的情况 。g(i) 表示在第t次迭代时的 gradient . η 目前是一个固定的学习率。θ(i)在第 t 次迭代减去 η 乘于 g(i) 表示在第t次迭代得到θ(i)在 t+1 次迭代的结果,也就是θ(i)进行了一次参数更新。
现在我们需要一个随着参数变换,能自动调整的Learning Rate. 我们把学习率的表示形式改写成下图。
那么这个 Parameter dependent 常见的有两种表示方式。
第一种是 Root Mean Square:
第二种是 RMSProp :
通过前面两节的学习,我们做个总结。Momentum 为了增加历史运动的惯性,RMS为了缓和步伐的大小,变得更加平缓。Momentum 考虑到了方向问题,而RMS 仅考虑了大小。