本文内容主要摘抄自NNDL和科学空间
批量梯度下降法(Batch gradient descent
)
定义可导的损失函数\(L(\cdot)\),给定批量大小(batch size
)\(K\),每次选取\(K\)个训练样本\(\cal{S}_t=\{(\bf{x}^{(k)},\bf{y}^{(k)})\}^{K}_{k=1}\)。第\(t\)次迭代时,损失函数关于参数\(\theta\)的偏导数为
第\(t\)次更新的梯度\(g_t\)定义为
\[{\bf{g}_t}\triangleq{\frak{g}}_t(\theta_{t-1}) \]使用梯度下降来更新参数
\[\theta_t\leftarrow\theta_{t-1}-\alpha g_t \]其中\(\alpha\gt0\)为学习率
每次迭代时参数更新的差值\(\Delta\theta_t\)定义为
\[\Delta\theta_t\triangleq\theta_t-\theta_{t-1} \]差值\(\Delta\theta_t\)和梯度\(\bf{g}_t\)的方向不需要完全一致。
影响小批量梯度下降法的主要因素有:
- 批量大小