来源:Coursera吴恩达深度学习课程
当训练完一个序列模型之后,我们要想了解到这个模型学到了什么,一种非正式的方法就是进行一次新序列采样(have a sample novel sequences),来看看到底应该怎么做。
注意序列模型模拟了任意特定单词序列的概率,我们需要对这些概率分布进行采样(sample)来生成一个新的单词序列。如上图所示:
①第一步:对你想要模型生成的一个词进行采样,输入(input)x^<1>=0和a^<0>=0,现在第一个时间步得到的输出是经过softmax层后得到的概率,然后根据这个softmax的分布进行随机采样。Softmax分布给你的信息就是第一个词a的概率是多少,第一个词是aaron的概率是多少,第一个词是zulu的概率是多少,还有第一个词是UNK(未知标识)的概率是多少,这个标识可能代表句子的结尾,然后对这个向量使用numpy命令为:
np.random.choice,来根据向量中这些概率的分布(according to distribution)进行采样,这样就能对第一个词进行采样了。
②然后继续下一个时间步,把采样得到的y帽^<1>作为输入(input),现在x^<2> = y帽^<1>,放入到a^<2>中,同样softmax层也会预测y帽^<2>。注意到不管第一个时间步得到的是什么词,都要传递到下一个位置作为输入(input)。
③然后再到下一个时间步,无论你得到什么样的用one-hot码表示的选择结果,都把它传递到下一个时间步,然后对第三个词进行采样。不管得到什么都把它传递下去,一直这样直到最后一个时间步。
那么我们要怎样知道一个句子结束了呢?(1)方法之一是,如果你的字典中有代表句子结尾的标识,当采样得到EOS标识时,这代表着已经抵达结尾,可以停止采样了。(2)另一种方法是,如果你的字典中没有EOS标识,你可以决定从20个或100个或其他个单词进行采样,然后一直将采样进行下去直到达到所设定的时间步。不过这种方法可能会产生一些未知标识,如果你要确保你的算法不会输出这种标识,可以拒绝采样过程中产生任何未知的标识,一旦出现就继续在剩下的词中进行重采样,直到得到一个不是未知标识的词。如果你不介意有未知标识产生的话,你也可以完全不管它们。
这就是你如何从你的RNN语言模型中生成一个随机选择的句子。直到现在我们所建立的是基于词汇的RNN模型,意思就是字典中的词都是英语单词。
在实际应用中,我们还可以构建一个基于字符的RNN结构(character level RNN),字典不仅包含从a到z的字母,可能还会有空格符,需要的话,还可以有数字0到9,如果你想区分字母大小写,可以再加上大写的字母,还可以实际地看一看训练集中可能会出现的字符,然后用这些字符组成你的字典。
使用基于字符的语言模型有优点也有缺点。(1)优点(pros)就是不必担心会出现未知的标识,例如基于字符的语言模型会将Mau这样的序列也视为可能性非零的序列。而对于基于词汇的语言模型,如果Mau不在字典中,你只能把它当作未知标识UNK。(2)主要缺点(cons)是最后会得到太多太长的序列,大多数英语句子只有10到20个的单词,但却可能包含很多字符。所以基于字符的语言模型在捕捉句子中的依赖关系(也就是句子较前部分如何影响较后部分)不如基于词汇的语言模型那样可以捕捉长范围的关系,并且基于字符的语言模型训练起来计算成本比较高昂。所以Andrew见到的自然语言处理的趋势就是,绝大多数都是使用基于词汇的语言模型。但随着计算机性能越来越高,在一些特殊情况下,会开始使用基于字符的模型。但是这需要更昂贵的计算力来训练,所以现在并没有得到广泛地使用。
总之,在现有的方法下,我们可以构建一个RNN结构,看一看英文文本的语料库,然后建立一个基于词汇的或者基于字符的语言模型,然后从训练的语言模型中进行采样。
如上图,有一些样本(examples),它们是从一个语言模型中采样得到的,准确来说是基于字符的语言模型。如果模型是用新闻文章训练的,它就会生成左边这样的文本;用莎士比亚的文章训练后生成了右边这篇东西。
这些就是基础的RNN结构和如何去建立一个语言模型并使用它,对于训练出的语言模型进行采样。在之后的学习中,Andrew想探讨在训练RNN时一些更加深入的挑战以及如何适应这些挑战,特别是梯度消失问题来建立更加强大的RNN模型。下节课,我们将谈到梯度消失并且会开始谈到GRU(门控循环单元)和LSTM(长期记忆网络模型)。
说明:记录学习笔记,如果错误欢迎指正!转载请联系我。