目前深度学习理论研究有哪些重要的成果、论文、热点和工具?
这个问题一方面希望汇总目前关键的深度学习理论研究的成果和工具,一方面希望为接触深度学习理论研究不久的同学提供一定的方向。
被浏览 16,0516 个回答
兔子peko sherwood 、 Anticoder 、 HaoZH 等这个问题一方面很适合放知乎来答,另一方面其实又不适合,适合的原因是做DL理论的相当一部分华人大佬都上知乎,不合适的原因是正因为他们都上知乎,所以一般人不敢答…………幸好作为新号没人知道我是谁……写这个答案单纯抛砖引玉了
绝大多数非凸的相关文章都在孙举的博客
Provable Nonconvex Methods/Algorithmssunju.org就主要参考这个吧……
DL相关的理论文章受限于本人知识有限,只能讲几类,一是非凸鞍点逃离,二是现在DNN的收敛的理论,三是异步SGD
1.鞍点
Ge Rong 、Chi Jin、Jason D. Lee等人做saddle points escaping相关的文章,还有Zeyuan Allen-Zhu 大佬也在这方面做了难以列举的大量工作。
这方面不得不提的两篇文章是Ge Rong大佬的Escaping From Saddle Points — Online Stochastic Gradient for Tensor Decomposition
以及杜少雷大佬的
Gradient Descent Can Take Exponential Time to Escape Saddle Points
第一篇文章考虑了加isotropic noise的gradient,从动力系统的理论我们知道Lyapunov第一定理,鞍点处肯定是不稳定的,但是这篇文章才开始指出了鞍点逃离的问题。这篇文章虽然分析的很粗糙,但是自然是非常有价值的。
Jason D Lee基于动力系统证明了一个stable manifold theorem:
Jason D Lee, Max Simchowitz, Michael I Jordan, and Benjamin Recht. Gradient descent only converges to minimizers. In Conference on Learning Theory
表明Gradient descent一般来说总是能逃离strictly saddle point,但是这篇文章无法给出好的bound,第二篇则是虽然是反例,但是给了每个做saddle points escaping 的人饭吃,所以是都要引一遍的文章……表明不带随机的GD很可能会花费指数时间才能逃离,给人吃了定心丸,做随机版本的GD还是有意义的…………
由于之前的文章的分析是比较粗糙的,第一篇比较细致分析鞍点逃离的文章是:
How to Escape Saddle Points Efficiently
注意这篇文章和第一篇的差别在于,这篇文章相当于考虑噪声梯度动力学的冲击响应,就是说噪声不是持续地加入的,而只对初始值有影响。第一篇文章则是噪声持续在影响动力学,但是实际上来说分析的问题是差不多的。
在这种“冲击响应”基础上的分析的文章是:
Sharp Analysis for Nonconvex SGD Escaping from Saddle Points
这篇文章
Stochastic Gradient Descent Escapes Saddle Points Efficiently
在技术上更细致地估计了鞍点附近泰勒展开的余项(这基本是所有的saddle points escaping的最主要的问题),基本把GD+噪声的情况的都解决了。
当然除了GD+噪声之外,有许多的一阶方法能逃离鞍点这里都不细说了,这都在孙举的博客那些文章里。
特别想说的是这篇
Escaping Saddle Points with Adaptive Gradient Methods
这篇文章之所以要说是因为发现了一个神奇的现象,那就是Adam之类的自适应的梯度算法能在鞍点处把SGD的噪声变成isotropic的,这种isotropic noise对于逃离鞍点具有非常重要的作用……
2.DNN的梯度动力学
这方面的开山之作是田渊栋大佬的
Symmetry-Breaking Convergence Analysis of Certain Two-layered Neural Networks with ReLU nonlinearity
这篇文章看起来很简单,考虑输入是Gaussian,one hidden node,Relu,但是真的是第一篇真的能做下去的文章。在multi hidden nodes的情况,由于这篇文章考虑的是强相关的正交情况,结果不太强。
在one hidden node的情况,杜少雷大佬在这方面做了非常牛逼的工作,大概NN结构相关的理论文章最牛逼最漂亮的工作就是
When is a Convolutional Filter Easy to Learn?
这篇最大优点是只需要对输入分布做非常合理非常自然的假设,在DNN的情况,这篇文章是上一篇的加强版,去掉了高斯输入的条件。在CNN的情况,则证明了一般的对CNN的直觉————输入应该是图像这样的局部相似的。
对于两层的multi hidden nodes的情况,一般而言,MSE这样的loss是不行的,我们有negative result:
Spurious Local Minima are Common in Two-Layer ReLU Neural Networks
不过这不是说两层就没法学
Learning One-hidden-layer Neural Networks with Landscape Design
基于张量方法:
Recovery Guarantees for One-hidden-layer Neural Networks
不过这就不是一般意义上的GD了…………
实际上,在一般考虑的MSE+GD的情况,因为有spurious local minima,能证明的主要是局部的情况只有像Symmetry-Breaking Convergence……那篇考虑的正交情况的邻域的情况,Yuanzhi Li 和Yang Yuan 大佬的工作:
Convergence Analysis of Two-layer Neural Networks with ReLU Activation
如果只是邻域的话,这篇文章并不有趣,但是这篇考虑的邻域范围非常广,虽然在正交的情况的很小的邻域附近,整个函数是one point convex的,但是这篇考虑了一个函数g,在一个更广的范围内,g会不断缩小,在g缩小的范围内,哪怕不是one poin convex的,这个区间仍然可以GD,不过这个证明还是非常依赖于输入分布的对称性的,不太容易follow……
为了解决多层的问题,一般的去除spurious local minima的想法就是Overparameterized Neural Network,也就是模型的维数非常大,大于样本数的情况……
这篇文章:
Topology and Geometry of Half-Rectified Network Optimization
考虑两层的Relu网络,强行构造一个到全局极小值的弧线,然后估计这个路径的loss function增大的值,也就是所谓的energy gap,然后证明了这个gap是 ,n,m是维数,如果m很大的话这个gap很小,局部极小值的loss就很低
On the Power of Over-parametrization in Neural Networks with Quadratic Activation
Theoretical insights into the optimization landscape of over-parameterized shallow neural networks
这两篇文章则是把Overparameterized情况做成Kawaguchi那种的只有一个局部极小值,而鞍点都是strictly saddle,第一篇杜的文章考虑的是二次的激活函数,导致最终的技术其实是low rank optimization那侧的方法
但是实际上这种方法是没法继续做下去的,主要原因是
Sub-Optimal Local Minima Exist for Almost All Over-parameterized Neural Networks
而现在的overparameterized方法其实主要源头是Yuanzhi Li, Yingyu Liang的文章:
Learning Overparameterized Neural Networks via Stochastic Gradient Descent on Structured Data
最终诞生了:
Gradient Descent Provably Optimizes Over-parameterized Neural Networks
Gradient Descent Finds Global Minima of Deep Neural Networks
A Convergence Theory for Deep Learning via Over-Parameterization
On the Convergence Rate of Training Recurrent Neural Networks
这些文章证明了至少在NTK的区域,GD是好用的
Zeyuan Allen Zhu and Yuanzhi Li与Du的工作的差别主要是分析gamma矩阵 还是 本身,这一系列的方法主要是利用overparameterized的秩性质,不考虑样本的梯度之间互相抵消的问题,分析的情况就和单样本一样。由于链式求导,多层的情况也非常地自然。
Zeyuan Allen Zhu and Yuanzhi Li的工作考虑的是Relu,这种情况的时候,多层的D矩阵估计是在考虑一些带着Relu的相互独立的高斯矩阵的乘法,取一个log之后就可以用Azuma type的不等式来估计,这种情况证明了Relu的激活函数的确是合适多层的,同时他们的两篇文章还提到了一点,其实在overparameterized情况下,是不该考虑最后一层的训练的,因为这种时候之后d>样本数n,损失函数是凸的话,这种训练最后一层和只训练最后一层是一样的…………比如:
Over-Parameterized Deep Neural Networks Have No Strict Local Minima For Any Continuous Activations
所以我觉得kawaguchi的这篇文章有点尴尬:
Gradient Descent Finds Global Minima for Generalizable Deep Neural Networks of Practical Sizes
另外值得提的是这篇文章
Are deep ResNets provably better than linear predictors?
这篇并没直接考虑局部极小值的问题,而是证明了wx+非线性的resnet like nn至少比wx的线性形式强,这倒是一个很好的思路,不过还是高度地依赖与损失函数的凸性质……
3.分布式优化(ASGD)
虽然谷歌(J. Dean, G. Corrado, R. Monga, K. Chen, M. Devin, M. Mao, M. Ranzato, A. Senior, P. Tucker,K. Yang, Q. V. Le, and A. Y. Ng. Large scale distributed deep networks)很早就在用了,但是非凸情况下的收敛性一直到Xiangru Lian大佬的
Asynchronous Parallel Stochastic Gradient for Nonconvex Optimization
才被证明,这篇文章证明了原子操作和非原子操作情况下的异步的ASGD在Lipschitzian情况下的收敛性,收敛与学习速率 和delay T,以及Lipschitzian constant L有关系
这篇同时发在Nips的文章
C. M. De Sa, C. Zhang, K. Olukotun, C. R, and C. R. Taming the wild: A unified analysis of
hogwild-style algorithms
以及这篇
ARock: an Algorithmic Framework for Asynchronous Parallel Coordinate Updates
的证明方法与上一篇不同,构造了一个伪Lyapunov functional(注意是functional而不是function),在无时延T=0的情况下,这个functional就是loss function,而T不为0的情况则是 的形式
而 ,所以最后能收敛,但是T不为0的情况则可能只有functional的值下降,loss function本身未必。
顺便值得提的文章是
这篇处理的是异步的ASGD的saddle point escaping,由于ASGD不能保证loss function的下降,出现了一些有意思的现象,同时也估计了时延T对escaping的影响,即便是T=0的情况,结论也比之前的文章要强一点
其他的进展包括provable RL等等,太多了就不写了……
编辑于 2019-12-26 继续浏览内容 知乎 发现更大的世界 打开 Chrome 继续 黄伟 机器学习PhD student 信息门下跑狗 、 YukiRain 、 wdan 、 五楼whearer 、 Anticoder 等我来总结一下我所了解和跟踪的深度学习理论研究。
我介绍的内容包含两条主线:
- 深度平均场理论(无限宽网络)
- Neural tangent kernel (NTK)
以及一些支线
- dynamical isometry
- 有限宽网络
- loss surface
- 信息几何
成果和相关论文
1.平均场理论研究全连接随机初始化的网络
考察信号前向传播后梯度反向传播性质,发现了一条critical line拥有非常好的初始化效果[1][2]:
对于前向传播,critical line可以避免指数型遗忘速率;对于后向传播critical line可以避免梯度消失和爆炸。
2. 平均场理论也被用于其他网络结构
- Resnet, 在大部分参数空间等价于全连接网络的critical line,因而非常好训练[3]
- CNN, 提出了一个适用于CNN的正交初始化,成功训练1万层CNN网络 [4]
- RNN, 证明了gated RNN具有比普通RNN更广泛、更健壮、更可训练的区域 [5]
- Batch Normalization, 没有residual connection的vanilla BN网络在深度上是不可训练的[6]
- LSTM and GRU, 提出了一种消除或减少训练不稳定性的初始化方案 [7]
3. 无限宽网络等价于高斯过程
4. 深度网络初始化条件dynamical isometry被提出
要求input-output Jacobian矩阵的奇异值分布在1附近。
- 线性网络[11]上的非线性动力学被准确研究,解释了预训练可能帮助训练的原理。
- 在全连接非线性网络上,dynamical isometry发生在平均场理论的critical line之上[12]
- 在Resnet上,dynamical isometry是一种和激活函数(大部分)无关的普适行为[13]
- 发现了全连接网络上关于dynamical isometry的普适性行为[14]
5. 有限宽网络的可训练性研究
亮点是发现了一个和网络宽度倒数之和有关的规律。
6. Loss surfaces的研究
- 通过统计物理中的spin glass模型来类比研究深度网络的loss surface[17]
- 通过random matrix理论对神经网络进行一定假设下获得loss surface[18]
- 发现了深度网络优化中的一个困难--鞍点问题[19]
只关注了一部分,列举如上。
7 平均场理论和信息几何
- 通过研究平均场理论下网络的Fisher information matrix特征值分布,发现了和泛化性(generalization)以及最大学习率(learning rate)相关量[20]。
- 利用信息几何研究正交初始化[21],部分解释了正交初始化的可以导致快速训练的原因,最近被ICLR 2020接收。
8 网络动力学和NTK
- 无限宽网络在参数空间的梯度下降等价于函数空间的kernel的梯度[22],这个kernel就是Neural Tangent Kernel,且在训练过程中不随着时间变化。
- 在梯度下降的情况下,任何深度的无限宽神经网络都可以等价于梯度下降下的线性模型[23]。这个工作是上一个工作的进一步补充,提供了大量真实实验验证。
- NTK的有限深度和宽度修正[24],与相对较浅和较宽的网络不同,深度和较宽的ReLU网络能够学习与数据相关的特征,即使在所谓的lazy training regime中也是如此。最近被ICLR 2020接收。
还有非常多的优秀工作没有被我提到。
热点和工具(包括课程和代码)
1. Neural Tangent Kernel 博客
18年文章出来,*有了:https://en.wikipedia.org/wiki/Neural_tangent_kernel
非常清晰易懂的博客解读:Understanding the Neural Tangent Kernel
Wei Hu and Simon Du的博客文章:Ultra-Wide Deep Nets and Neural Tangent Kernel (NTK)
2. 斯坦福的深度学习理论课程
Analyses of Deep Learning (STATS 385)
这个课程包含了很多深度学习理论研究,我在成果和相关论文介绍的一部分工作被涵盖在这个课程中。
3. neural tangent kernel 代码
https://github.com/google/neural-tangents
基于JAX框架的实现的。个人测试效果感觉轻便好用。安利一波。
4. 各种网络结构上平均场理论数学框架tensor program
如何看待深度学习理论论文tensor programs?www.zhihu.com这篇文章可以看成是对目前深度学习理论中各种网络结构的平均场理论以及Neural Tangent Kernel的一个数学上的总结和补充。
参考
- ^Poole, Ben, et al. "Exponential expressivity in deep neural networks through transient chaos." Advances in neural information processing systems. 2016. https://arxiv.org/abs/1606.05340
- ^Schoenholz, Samuel S., et al. "Deep information propagation." arXiv preprint arXiv:1611.01232 (2016). https://arxiv.org/abs/1611.01232
- ^Yang, Ge, and Samuel Schoenholz. "Mean field residual networks: On the edge of chaos." Advances in neural information processing systems. 2017. http://papers.nips.cc/paper/6879-mean-field-residual-networks-on-the-edge-of-chaos
- ^Xiao, Lechao, et al. "Dynamical isometry and a mean field theory of cnns: How to train 10,000-layer vanilla convolutional neural networks." arXiv preprint arXiv:1806.05393 (2018). https://arxiv.org/abs/1806.05393
- ^Chen, Minmin, Jeffrey Pennington, and Samuel S. Schoenholz. "Dynamical isometry and a mean field theory of RNNs: Gating enables signal propagation in recurrent neural networks." arXiv preprint arXiv:1806.05394 (2018). https://arxiv.org/abs/1806.05394
- ^Yang, Greg, et al. "A mean field theory of batch normalization." arXiv preprint arXiv:1902.08129 (2019). https://arxiv.org/abs/1902.08129
- ^Gilboa, Dar, et al. "Dynamical Isometry and a Mean Field Theory of LSTMs and GRUs." arXiv preprint arXiv:1901.08987 (2019). https://arxiv.org/abs/1901.08987
- ^Lee, Jaehoon, et al. "Deep neural networks as gaussian processes." arXiv preprint arXiv:1711.00165 (2017). https://arxiv.org/abs/1711.00165
- ^Matthews, Alexander G. de G., et al. "Gaussian process behaviour in wide deep neural networks." arXiv preprint arXiv:1804.11271 (2018). https://arxiv.org/abs/1804.11271
- ^Garriga-Alonso, Adrià, Carl Edward Rasmussen, and Laurence Aitchison. "Deep convolutional networks as shallow gaussian processes." arXiv preprint arXiv:1808.05587 (2018). https://arxiv.org/abs/1808.05587
- ^Saxe, Andrew M., James L. McClelland, and Surya Ganguli. "Exact solutions to the nonlinear dynamics of learning in deep linear neural networks." arXiv preprint arXiv:1312.6120 (2013). https://arxiv.org/abs/1312.6120
- ^Pennington, Jeffrey, Samuel Schoenholz, and Surya Ganguli. "Resurrecting the sigmoid in deep learning through dynamical isometry: theory and practice." Advances in neural information processing systems. 2017. http://papers.nips.cc/paper/7064-resurrecting-the-sigmoid-in-deep-learningthrough
- ^Tarnowski, Wojciech, et al. "Dynamical Isometry is Achieved in Residual Networks in a Universal Way for any Activation Function." arXiv preprint arXiv:1809.08848 (2018). https://arxiv.org/abs/1809.08848
- ^Pennington, Jeffrey, Samuel S. Schoenholz, and Surya Ganguli. "The emergence of spectral universality in deep networks." arXiv preprint arXiv:1802.09979 (2018). https://arxiv.org/abs/1802.09979
- ^Hanin, Boris. "Which neural net architectures give rise to exploding and vanishing gradients?." Advances in Neural Information Processing Systems. 2018. http://papers.nips.cc/paper/7339-which-neural-net-architectures-give-rise-to-exploding-and-vanishing-gradients
- ^Hanin, Boris, and David Rolnick. "How to start training: The effect of initialization and architecture." Advances in Neural Information Processing Systems. 2018. http://papers.nips.cc/paper/7338-how-to-start-training-the-effect-of-initialization-and-architecture
- ^Choromanska, Anna, et al. "The loss surfaces of multilayer networks." Artificial Intelligence and Statistics. 2015. http://proceedings.mlr.press/v38/choromanska15.pdf
- ^Pennington, Jeffrey, and Yasaman Bahri. "Geometry of neural network loss surfaces via random matrix theory." Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017. http://proceedings.mlr.press/v70/pennington17a/pennington17a.pdf
- ^Dauphin, Yann N., et al. "Identifying and attacking the saddle point problem in high-dimensional non-convex optimization." Advances in neural information processing systems. 2014. http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex-optimization
- ^Karakida, Ryo, Shotaro Akaho, and Shun-ichi Amari. "Universal statistics of fisher information in deep neural networks: mean field approach." arXiv preprint arXiv:1806.01316 (2018). https://arxiv.org/abs/1806.01316
- ^Sokol, Piotr A., and Il Memming Park. "Information geometry of orthogonal initializations and training." arXiv preprint arXiv:1810.03785 (2018). https://openreview.net/forum?id=rkg1ngrFPr
- ^Jacot, Arthur, Franck Gabriel, and Clément Hongler. "Neural tangent kernel: Convergence and generalization in neural networks." Advances in neural information processing systems. 2018. http://papers.nips.cc/paper/8076-neural-tangent-kernel-convergence-and-generalization-in-neural-networks
- ^Lee, Jaehoon, et al. "Wide neural networks of any depth evolve as linear models under gradient descent." arXiv preprint arXiv:1902.06720 (2019). https://arxiv.org/abs/1902.06720
- ^Hanin, Boris, and Mihai Nica. "Finite Depth and Width Corrections to the Neural Tangent Kernel." arXiv preprint arXiv:1909.05989 (2019). https://arxiv.org/abs/1909.05989
谢邀。理论研究的论文不少,但到目前为止,让我觉得叹为观止觉得大有前途的还是Tishby的各种工作,尤其是Information Bottleneck Theory,从信息论的角度阐释了深度学习的工作方式。不过也有一定的局限性,他的IB理论主要还是针对数据集本身存在的关系推导的一个理论上限,然后深度学习恰好可以达到这个理论上限,但是没有探讨深度学习的各种层对学习的影响,感觉是个很有潜力的方向,以信息处理的视角来分析网络一层一层到底在做什么。此外Tishby也有不少研究SGD动力学问题的论文。Tishby本人也做过一些演讲,关于他的整个理论框架,u2b上可以找到,也可以去看他的论文。
发布于 2019-12-11 继续浏览内容 知乎 发现更大的世界 打开 Chrome 继续 刘锦龙 算法工程师宣传一下我自己的一个工作:刘锦龙:ICLR2020 spotlight 工作,理解神经网络泛化性能为什么这么好
发布于 2019-12-27