[ 机器学习 - 吴恩达 ] Linear regression with one variable 单变量线性回归 | 2-5 Gradient descent intuition 直观理解梯度下降

repeat until convergence {
\(\theta_j := \theta_j - \alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)\)  \((for\ j = 0\ and\ j = 1\))
}
\(\alpha\): 学习率

如果学习率太小,梯度下降将很慢

如果学习率很大,梯度下降会越过最小值。可能不会收敛,甚至发散

  就算学习率是固定的,梯度下降仍会收敛到局部最小值。

这是因为:

  当接近一个局部最小值时,梯度下降幅度将自动变小,因此,不需要随时间自动减少\(\alpha\)。

上一篇:PyTorch深度学习实践 Lecture 02 Linear_Model


下一篇:Financial - 金融面试题汇总