参数优化的Adam法

本文内容主要摘抄自NNDL和科学空间

批量梯度下降法(Batch gradient descent)

定义可导的损失函数\(L(\cdot)\),给定批量大小(batch size)\(K\),每次选取\(K\)个训练样本\(\cal{S}_t=\{(\bf{x}^{(k)},\bf{y}^{(k)})\}^{K}_{k=1}\)。第\(t\)次迭代时,损失函数关于参数\(\theta\)的偏导数为

\[{\frak{g}}_t(\theta)=\frac{1}{K}\sum_{\bf{(x,y)}\in{\cal{S}_t}}{\frac{\partial{\cal{L}({\bf{y}},f({\bf{x}};\theta))}}{\partial\theta}} \]

第\(t\)次更新的梯度\(g_t\)定义为

\[{\bf{g}_t}\triangleq{\frak{g}}_t(\theta_{t-1}) \]

使用梯度下降来更新参数

\[\theta_t\leftarrow\theta_{t-1}-\alpha g_t \]

其中\(\alpha\gt0\)为学习率

每次迭代时参数更新的差值\(\Delta\theta_t\)定义为

\[\Delta\theta_t\triangleq\theta_t-\theta_{t-1} \]

差值\(\Delta\theta_t\)和梯度\(\bf{g}_t\)的方向不需要完全一致。

影响小批量梯度下降法的主要因素有:

  1. 批量大小
上一篇:极大/小搜索,alpha/beta剪枝


下一篇:【翻译】RAINBOW:采用新型SNP-set方法的基于单倍型的全基因组关联分析【第二部分:材料和方法】