【论文考古】神经网络优化 Qualitatively Characterizing Neural Network Optimization Problems

I. J. Goodfellow, O. Vinyals, and A. M. Saxe, “Qualitatively characterizing neural network optimization problems,” arXiv:1412.6544 [cs, stat], May 2015. [Online]. Available: http://arxiv.org/abs/1412.6544

主要工作

文章提出一种方法,用来检测训练好的神经网络,在初始参数与最终解的直线路径上,有没有遇到局部最优点等阻碍。利用\(\theta_0,\theta_f\)两个参数点的凸组合,通过改变\(\alpha\)的值来计算合成的参数\(\theta= (1-\alpha)\theta_0+\alpha \theta_f\)的损失函数\(J(\theta)\)。对于两个不同随机种子下找到的解\(\theta_{f_1},\theta_{f_2}\),图像如下:

【论文考古】神经网络优化 Qualitatively Characterizing Neural Network Optimization Problems
  • 两个不同的局部最优点之间包含了一个高loss的障碍,但没有其他局部最优点了。这个性质被McMahan发现后,应用在了相同初始点的过拟合网络合并上,发现loss反而下降。
  • 两个局部最优点更像是经过一个鞍点后的不同选择,而不是完全有不同效果的两个解

这个文章的价值在于提出了一种检测的方法,但是实际应用很窄,毕竟直线路径里包含的线性子空间太小了。但是McMahan用这个方法来验证了网络的合并,还是很有创意的。

观点

  • SGD在有偏的loss估计时是行不通的。也就是说每轮选取一个non iid data的用户来更新全局梯度,最后多半不收敛。

    SGD of course only ever acts on unbiased stochastic approximations to this loss function.

  • 局部最优点在训练大型神经网络时不是什么大问题。

    These results are consistent with recent empirical and theoretical work arguing that local minima are not a significant problem for training large neural networks.

    通过实验找了一个随机点和参数点的线性空间中loss的值,没有明显上升,所以局部最优点是稀疏的。(有点太随机了,说服力不够)

    【论文考古】神经网络优化 Qualitatively Characterizing Neural Network Optimization Problems
上一篇:基本初等函数的导数公式证明


下一篇:704. 二分查找