repeat until convergence {
\(\theta_j := \theta_j - \alpha\frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)\) \((for\ j = 0\ and\ j = 1\))
}
\(\alpha\): 学习率
如果学习率太小,梯度下降将很慢
如果学习率很大,梯度下降会越过最小值。可能不会收敛,甚至发散
就算学习率是固定的,梯度下降仍会收敛到局部最小值。
这是因为:
当接近一个局部最小值时,梯度下降幅度将自动变小,因此,不需要随时间自动减少\(\alpha\)。