权重衰减(weight decay)与学习率衰减(learning rate decay)

权重衰减(weight decay)L2正则化的目的就是为了让权重衰减到更小的值,在一定程度上减少模型过拟合的问题,所以权重衰减也叫L2正则化。

1.1 L2正则化与权重衰减系数

L2正则化就是在代价函数后面再加上一个正则化项:权重衰减(weight decay)与学习率衰减(learning rate decay)遇到这种情况通常可以通过适当降低学习率(learning rate)来实现。但是,降低学习率又会延长训练所需的时间。学习率衰减(learning rate decay)就是一种可以平衡这两者之间矛盾的解决方案。学习率衰减的基本思想是:学习率随着训练的进行逐渐衰减。学习率衰减基本有两种实现方法:
  1. 线性衰减。例如:每过5个epochs学习率减半。
  2. 指数衰减。例如:随着迭代轮数的增加学习率自动发生衰减,每过5个epochs将学习率乘以0.9998。具体算法如下:
decayed_learning_rate=learning_rate*decay_rate^(global_step/decay_steps)其中decayed_learning_rate为每一轮优化时使用的学习率,learning_rate为事先设定的初始学习率,decay_rate为衰减系数,decay_steps为衰减速度。

Reference:(1)学习率衰减部分内容和图片来自:学习率衰减(learning rate decay)(2)神经网络学习率(learning rate)的衰减

![在这里插入图片描述](https://www.icode9.com/i/ll/?i=20200302141820883.jpg) 权重衰减(weight decay)与学习率衰减(learning rate decay)权重衰减(weight decay)与学习率衰减(learning rate decay) kyle1314608 发布了259 篇原创文章 · 获赞 7 · 访问量 2万+ 私信 关注
上一篇:音视频基本格式


下一篇:二十四.基于机器学习的入侵检测和攻击识别——以KDD CUP99数据集为例