Proximal Gradient Descent for L1 Regularization

2022-11-19 15:21:37

[本文链接：http://www.cnblogs.com/breezedeus/p/3426757.html，转载请注明出处]

假设我们要求解以下的最小化问题：
\( \min\limits_x f(x) \) 。
如果\( f(x) \)可导，那么一个简单的方法是使用Gradient Descent (GD)方法，也即使用以下的式子进行迭代求解：
\( x_{k+1} := x_{k} - \alpha \nabla f(x_{k}) \) 。
对GD的一种解释是\( x_{k} \)沿着当前目标函数的下降方向走一小段，只要步子足够小，总能保证得到 \( f(x_{k+1}) \leq f(x_{k}) \)。

如果\( \nabla f(x) \)满足L-Lipschitz，即：
\( ||\nabla f(x') - \nabla f(x)|| \leq L ||x’ - x|| \)，
那么我们可以在点\( x_{k} \)附近把\( f(x) \)近似为：
\( \hat{f}(x, x_k) \doteq f(x_k) + \langle \nabla f(x_k), x - x_k \rangle + \frac{L}{2} ||x - x_k||^2 \)。

把上面式子中各项重新排列下，可以得到：