整体回答得都比较简略,可以起到提纲挈领的作用,但是还需要继续深化。
解释Adam优化器的概念。
答:Adam结合了两个想法来改善收敛性:每个参数更新可加快收敛速度;动量可避免卡在鞍点上。
为什么必须在神经网络中引入非线性?
答:否则,我们将获得一个由多个线性函数组成的线性函数,那么就成了线性模型。线性模型的参数数量非常少,因此建模的复杂性也会非常有限。
如何解决梯度爆炸的问题?
答:解决梯度爆炸问题的一个最简单的方法就是梯度修剪,即当梯度的绝对值大于M(M是一个很大的数字)时,设梯度为±M。
说明为什么神经网络中的dropout可以作为正则化。
答:关于dropout的工作原理有几种解释。我们可以将其视为模型平均的一种形式:我们可以在每一步中“去掉”模型的一部分并取平均值。另外,它还会增加噪音,自然会产生调节的效果。最后,它还可以稀释权重,从根本上阻止神经网络中神经元的共适应。
判断对错:将L2正则化添加到RNN有助于解决梯度消失的问题。
答:错误!添加L2正则化会将权重缩小为零,在某些情况下这实际上会让梯度消失的问题更严重。
参考这篇文章:
https://mp.weixin.qq.com/s/BjR4ohEGw8pRKZqpgSt9Aw