NLP model:RNN家族

1 RNN

核⼼想法:重复使⽤ 相同 的权重矩阵 W
NLP model:RNN家族
NLP model:RNN家族

1.1 Training a RNN Language Model

  • 获取⼀个较⼤的⽂本语料库,该语料库是⼀个单词序列
  • 输⼊RNN-LM;计算每个步骤 t 的输出分布
    • 即预测到⽬前为⽌给定的每个单词的概率分布
  • 步骤 t 上的损失函数为预测概率分布 y ( t ) ∗ y^{(t)*} y(t)∗与真实下⼀个单词 y ( t ) y^{(t)} y(t) ( x ( t + 1 ) x^{(t+1)} x(t+1)的one-hot向量)之间的交叉熵
  • 将其平均,得到整个培训集的总体损失
    NLP model:RNN家族

1.2 Generating text with a RNN Language Model

就像n-gram语⾔模型⼀样,您可以使⽤RNN语⾔模型通过 重复采样 来 ⽣成⽂本 。采样输出是下⼀步的输⼊。

NLP model:RNN家族

1.3 Bidirectional RNNs

NLP model:RNN家族

1.4 Multi-layer RNNs

NLP model:RNN家族

2 LSTM(Long Short-Term Memory)

2.1 LSTM 网络

所有循环神经网络结构都是由结构完全相同的模块进行复制而成的。在普通的 RNN 中,这个模块非常简单,比如一个单一的 t a n h tanh tanh层
NLP model:RNN家族
LSTM 也有类似的结构,唯一的区别就是中间的部分,LSTM 不再只是一个单一的 t a n h tanh tanh层,而使用了四个相互作用的层
NLP model:RNN家族
首先,我先解释一下里面用到的符号
NLP model:RNN家族
在网络结构图中,每条线都传递着一个向量,从一个节点中输入到另一个节点。黄色的矩阵表示的是一个神经网络层;粉红色的圆圈表示逐点操作,如向量乘法、加法等;合并的线表示把两条线上所携带的向量进行合并(比如一个是 h t − 1 h_{t-1} ht−1​,另一个是 x t x_t xt​,那么合并后的输出就是 [ h t − 1 , x t ] [h_{t-1},x_t] [ht−1​,xt​];分开的线表示将线上传递的向量复制一份,传给两个地方

2.2 LSTM 核心思想

LSTM 的关键是 cell 状态,即贯穿图顶部的水平线。cell 状态的传输就像一条传送带,向量从整个 cell 中穿过,只是做了少量的线性操作,这种结构能很轻松地实现信息从整个 cell 中穿过而不做改变(这样就可以实现长时期地记忆保留)
NLP model:RNN家族
LSTM 也有能力向 cell 状态中添加或删除信息,这是由称为门(gates)的结构仔细控制的。门可以选择性的让信息通过,它们由 sigmoid 神经网络层和逐点相乘实现
NLP model:RNN家族
每个 LSTM 有三个这样的门结构来实现控制信息(分别是 forget gate 遗忘门;input gate 输入门;output gate 输出门)
NLP model:RNN家族
你可以把LSTM⽅程想象成这样:
NLP model:RNN家族

2.3 逐步理解 LSTM

2.3.1 遗忘门

LSTM 的第一步是决定要从 cell 状态中丢弃什么信息,这个决定是由一个叫做 forget gate layer 的 sigmoid 神经层来实现的。它的输入是 h t − 1 h_{t-1} ht−1​和 x t x_t xt​ ,输出是一个数值都在 0~1 之间的向量(向量长度和 C t − 1 C_{t-1} Ct−1​ 一样),表示让 C t − 1 C_{t-1} Ct−1​的各部分信息通过的比重,0 表示不让任何信息通过,1 表示让所有信息通过

思考一个具体的例子,假设一个语言模型试图基于前面所有的词预测下一个单词,在这种情况下,每个 cell 状态都应该包含了当前主语的性别(保留信息),这样接下来我们才能正确使用代词。但是当我们又开始描述一个新的主语时,就应该把旧主语的性别给忘了才对(忘记信息)
NLP model:RNN家族

2.3.2 输入门

下一步是决定要让多少新的信息加入到 cell 状态中。实现这个需要包括两个步骤:首先,一个叫做 input gate layer 的 sigmoid 层决定哪些信息需要更新。另一个 t a n h tanh tanh层创建一个新的 candidate 向量 C ~ t \widetilde C_t C t​。最后,我们把这两个部分联合起来对 cell 状态进行更新
NLP model:RNN家族
在我们的语言模型的例子中,我们想把新的主语性别信息添加到 cell 状态中,替换掉老的状态信息。有了上述的结构,我们就能够更新 cell 状态了,即把 C t − 1 C_{t-1} Ct−1​更新为 C t C_t Ct​ 。从结构图中应该能一目了然,首先我们把旧的状态 C t − 1 C_{t-1} Ct−1​和 f t f_t ft​相乘,把一些不想保留的信息忘掉,然后加上 i t ∗ C ~ t i_t*\widetilde C_t it​∗C t​。这部分信息就是我们要添加的新内容
NLP model:RNN家族

2.3.3 输出门

最后,我们需要决定输出什么值了。这个输出主要是依赖于 cell 状态 C t C_t Ct​,但是是经过筛选的版本。首先,经过一个 sigmoid 层,它决定 C t C_t Ct​中的哪些部分将会被输出。接着,我们把 C t C_t Ct​通过一个 t a n h tanh tanh层(把数值归一化到 - 1 和 1 之间),然后把 t a n h tanh tanh层的输出和 sigmoid 层计算出来的权重相乘,这样就得到了最后的输出结果

在语言模型例子中,假设我们的模型刚刚接触了一个代词,接下来可能要输出一个动词,这个输出可能就和代词的信息有关了。比如说,这个动词应该采用单数形式还是复数形式,那么我们就得把刚学到的和代词相关的信息都加入到 cell 状态中来,才能够进行正确的预测
NLP model:RNN家族

3 GRU

介绍完LSTM的工作原理后,下面来看下门控循环单元GRU。GRU是RNN的另一类演化变种,与LSTM非常相似。GRU结构中去除了单元状态,而使用隐藏状态来传输信息。它只有两个门结构,分别是更新门和重置门。

NLP model:RNN家族
NLP model:RNN家族

  • 更新⻔:更新门的作用类似于LSTM中的遗忘门和输入门,它能决定要丢弃哪些信息和要添加哪些新信息。
  • 重置⻔:重置门用于决定丢弃先前信息的程度。

4 Seq2Seq

4.1 架构

在Seq2Seq结构中,编码器Encoder把所有的输入序列都编码成一个统一的语义向量Context,然后再由解码器Decoder解码。在解码器Decoder解码的过程中,不断地将前一个时刻 t − 1 t-1 t−1 的输出作为后一个时刻 t t t 的输入,循环解码,直到输出停止符为止。
NLP model:RNN家族
与经典RNN结构不同的是,Seq2Seq结构不再要求输入和输出序列有相同的时间长度!

NLP model:RNN家族

4.2 Attention

在Seq2Seq结构中,encoder把所有的输入序列都编码成一个统一的语义向量Context,然后再由Decoder解码。由于context包含原始序列中的所有信息,它的长度就成了限制模型性能的瓶颈。如机器翻译问题,当要翻译的句子较长时,一个Context可能存不下那么多信息,就会造成精度的下降。除此之外,如果按照上述方式实现,只用到了编码器的最后一个隐藏层状态,信息利用率低下。

所以如果要改进Seq2Seq结构,最好的切入角度就是:利用Encoder所有隐藏层状态解决Context长度限制问题。

NLP model:RNN家族

  • Step1 计算Encoder的隐藏状态和Decoder的隐藏状态
    首先计算第一个解码器隐藏状态(红色)和所有可用的编码器隐藏状态(绿色)。下图中有4个编码器隐藏状态和当前解码器的隐藏状态。要想输出Decoder的第一个隐藏的状态,需要给Decoder一个初始状态和一个输入,例如采用Encoder的最后一个状态作为Decoder的初始状态,输入为0。
  • Step2 获取每个编码器隐藏状态对应的分数
    计算Decoder的第一个隐藏状态和Encoder所有的隐藏状态的相关性,这里采用点积的方式(默认两个向量长度一样)。
  • Step3 通过softmax归一化分数
    我们把得到的分数输入到softmax层进行归一化,归一化之后的分数(标量)加起来等于1,归一化后的分数代表注意力分配的权重 。
  • Step4 用每个编码器的隐藏状态乘以其softmax得分
    通过将每个编码器的隐藏状态与其softmax之后的分数(标量)相乘,我们得到对齐向量 或标注向量。这正是对齐产生的机制。
  • Step5 把所有对齐的向量加起来
    对齐向量进行求和,生成上下文向量(语义编码)。上下文向量是前一步对齐向量的聚合信息。
  • Step6 将上下文向量输入到Decoder中

NLP model:RNN家族

上一篇:前端图像 裁剪利器 JQuerJjcrop+裁剪图像保存教程


下一篇:使用exe4j把JAVA GUI程序打包成exe文件时遇到的问题