1、近端梯度下降 proximal gradient descent
对于凸优化问题,当其目标函数存在不可微部分(例如目标函数中有 [公式] -范数或迹范数)时,近端梯度下降法才会派上用场
https://zhuanlan.zhihu.com/p/82622940
2、神经网络中使用L1z正则,获取参数的稀疏性
https://zhuanlan.zhihu.com/p/22099871
Caffe中每层使用L1正则,参数并不是稀疏的原因:1、CNN的参数和Loss关系并不是凸函数,并且Caffe中求解L1的算法使用的是最基础的subgradient descent,所以不能达到稀疏的效果 2、实验使用近端梯度下降可以达到稀疏性效果
3、