【转】统计模型-n元文法

2022-08-29 22:07:40

在谈N-Gram模型之前，我们先来看一下Mrkove假设：

　　1.一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词；

　　2.一个词出现的概率条件地依赖于前N-1个词的词类。

定义

　　N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型（CLM，Chinese Language Model）。汉语语言模型利用上下文中相邻词之间的搭配信息，在需要把连续无空格的拼音、比划，或者代表字母或者比划的数字，转换成汉字串（即句子）时，可以计算出具有最大概率的句子，从而实现到汉字之间的自动转换，无需用户手动选择，避开了许多汉字对应一个相同的拼音的重码问题。

　　该模型基于这样一种假设，第n个词的出现只与前面n-1个词相关，而与其他任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从预料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。在中文语言模型中，可以字、词、词性(POS)或词义等作为n-gram的统计单元。

　　由于n-gram模型只观察2到3个历史信息，所以它反映的是语言的局部规律，但如果训练语料足够大，模型构造合理，这个局部规律比较可靠。利用这一特点，我们还可以应用n-gram对文本进行局部分析，以查出文本中的局部错误。它基于如下假设：对正确的语言现象，词与词之间的共现概率比较高，对一些不符合语法的错误语言，词与词之间的共现概率较低。

详细介绍

　　- - N-gram思想

　　在介绍N-gram模型之前，让我们先来做个香农游戏（Shannon Game）。我们给定一个词，然后猜测下一个词是什么。当我说“艳照门”这个词时，你想到下一个词是什么呢？我想大家很有可能会想到“陈冠希”，基本上不会有人会想到“陈志杰”吧。N-gram模型的主要思想就是这样的。

　　对于一个句子T，我们怎么算它出现的概率呢？假设T是由词序列W1W2W3…Wn组成的，那么，

　　P(T)=P(W1W2W3...Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)

　　但这样做的两个致命缺陷是：

　　（1）参数空间过大；

　　（2）数据稀疏严重。

　　为了解决这个问题，引入Markov假设：一个词的出现仅仅依赖于他前面出现的有限的一个或者几个词。

　　如果一个词的出现仅仅依赖于他前面出现的一个词，那么我们就称之为Bi-gram，即

　　 P(T) = P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1) ≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1)

　　同样地，如果一个词的出现仅仅依赖于前面出现的两个词，那么我们就称之为Tri-gram。

　　在实践中用的最多的就是bigram和trigram了，而且效果很不错。高于四元的用的很少，因为训练它需要更庞大的语料，而且数据稀疏严重，时间复杂度高，精度却提高的不多。

　　- -计算P(Wn|W1W2…Wn-1)

　　那么我们怎么得到P(Wn|W1W2…Wn-1)呢？一种简单的估计方法就是最大似然估计(Maximum Likelihood Estimate）了。即

　　P(Wn|W1W2…Wn-1) = (C(W1 W2…Wn))/(C(W1 W2…Wn-1))

　　剩下的工作就是在训练语料库中数数儿了，即统计序列C(W1 W2…Wn) 出现的次数和C(W1 W2…Wn-1)出现的次数。

举例介绍

　　模型为Bi-gram，假设语料库总词数为13748

稀疏问题

　　这里还有一个问题要说，那就是数据稀疏问题了，假设词表中有20000个词，如果是Bi-gram那么可能的N-gram就有400000000个，如果是trigram，那么可能的N-gram就有8000000000000个！那么对于其中的很多词对的组合，在语料库中都没有出现，根据最大似然估计得到的概率将会是0，这会造成很大的麻烦，在算句子的概率时一旦其中的某项为0，那么整个句子的概率就会为0，最后的结果是，我们的模型只能算可怜兮兮的几个句子，而大部分的句子算得的概率是0. 因此，我们要进行数据平滑（data Smoothing），数据平滑的目的有两个：一个是使所有的N-gram概率之和为1，使所有的N-gram概率都不为0.有关数据平滑的详细内容后面会再讲到，这里不再赘述。

码农公寓

相关文章