1:动量Momentum(惯性)
【注】简而言之:下一个梯度方向等于当前梯度的更新方向和上一个梯度方向的共同方向。
【注】当β=0,α!=0完全退化成没有添加动量的梯度更新
[注]当α和β都不等于0,则动量β有效,最优化时避免陷入局部极小值。
【注】在pytorch中只需要在优化器SGD中添加参数momentum就可以设置动量β。还有一些优化器例如:Adam()则momentum内嵌其中故没有momentum参数。
weight_decay参数则是为了将权值参数的范数逼近为0,以减弱过拟合现象。