概述
从 本节开始学习RNN相关内容。
神经网络可以当做是能够拟合任意函数的黑盒子,将神经网络模型训练好之后,对于input 输入x ,经过隐层后,输出层会得到y. 为啥还需要RNN网络呢?
神经网络都只能单独的取处理一个个的输入,前一个输入和后一个输入是完全没有关系的。但是,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。
序列:我们 可以理解不同的时刻t1,t2,...tn
比如当我们在理解一句话意思时,孤立的理解这句话的每个词是不够的,我们需要处理这些词连接起来的整个序列;
RNN结构
这是个 抽象的图,右侧如果去到隐层自己的链接就变成了最普通的全连接神经网络。圈的含义 :循环神经网络的隐藏层的值不仅仅取决于当前这次的输入,还取决于上一次隐藏层的值。
通过这个图,就容易看出 上一时刻的隐藏层是如何影响当前时刻的隐藏层的。,... 都是中间结果,可以舍去,只需要最终的.
LSTM
Long short-term memory,翻译就是长短期记忆,是RNN的一种,比普通RNN好。
为什么LSTM比普通RNN效果好?
展开就是梯度消失和爆炸的问题了,这里 简单理解:如果一个句子很长,到句子末尾时,它将记不住这个句子的开头的内容详细内容(或者 太长了以至于开头的内容对于最后没啥作用)
LSTM通过它的“门控装置”有效的缓解了这个问题,
公式没有展开讲 ,先 简单整体 理解:LSTM 有3个 门,先经过输入门,看是否有信息输入,再判断遗忘门是否选择遗忘隐层里的信息,最后再经过输出门,判断是否将这一时刻的信息进行输出。