关注微信公众号:NLP分享汇。【喜欢的扫波关注,每天都在更新自己之前的积累】
文章链接:https://mp.weixin.qq.com/s/XdV-1aIRFzAU8HXTH7M3Lw
前言
之前我们对RNN模型做了总结。由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进,得到了RNN的特例LSTM,它可以避免常规RNN的梯度消失,因此在工业界得到了广泛的应用。
RNN原理介绍:追根溯源:循环神经网络
《 Long short-term memory 》 ( 1997 )
作者:Hochreiter S, Schmidhuber J
论文链接:https://people.idsia.ch//~juergen/lstm2003tutorial.pdf
论文内容简介
在LSTM中引入了门机制,主要是为了解决梯度消失问题。引入了输入门,遗忘门和输出门,以决定应保留来自新输入和过去存储器的多少信息。该模型可用以下方程式描述:
术语“长期短期记忆”直觉上是提出的模型同时应用了长期和短期记忆向量来编码顺序数据,并使用门控机制来控制信息流。LSTM的性能令人印象深刻,因为它在许多NLP任务中作为骨干模型都获得了最新的成果,尽管该模型是在1997年提出的。
LSTM的整体结构
由于RNN梯度消失的问题,大牛们对于序列索引位置t的隐藏结构做了改进,可以说通过一些技巧让隐藏结构复杂了起来,来避免梯度消失的问题,这样的特殊RNN就是我们的LSTM。由于LSTM有很多的变种,这里我们以最常见的LSTM为例讲述。
-
细胞状态
在每个序列索引位置t时刻向前传播的除了和RNN一样的隐藏状态ℎ