RNN 梯度消失/爆炸问题的解决方法

https://blog.csdn.net/cindy_1102/article/details/89010066

一、既然我们已经对消失梯度问题的本质和它在深度神经网络中的表现有了直观的认识,那么让我们关注一个简单而实用的启发式方法来解决这些问题。 为了解决梯度爆炸的问题,Thomas Mikolov首先引入了一个简单的启发式解决方案,当梯度爆炸时,将梯度裁剪为一个小数值。也就是说,当它们达到某个阈值时,就会被重新设置为一个小数值.
二、LSTM能保留信息,所以一定程度上能解决梯度消失

 

上一篇:论文阅读 | Assessing the Ability of Self-Attention Networks to Learn Word Order


下一篇:【笔记】李宏毅 -- Transformer