n元语法模型
简单说,就是某一句子在语料库中出现的概率。n的取值不能太大
n=1 :称为一元语法模型,记为uni-gram
n=2 :称为二元语法模型,又称一阶马尔可夫链,记为bi-gram,它仅与它前面的一个历史词有关
n=3 :称为三元语法模型,又称二阶马尔可夫链,记为tri-gram,它仅与它前面的两个历史词有关
回顾高数:P(ABCDE)=P(A)P(B|A)P(C|AB)P(D|ABC)P(E|ABCD)
由此可得二元语法模型P(ABCDE):
P(ABCDE)=P(A|BOS)P(B|A)P(C|B)P(D|C)P(E|D)P(EOS|E)
BOS: begin of sentence
EOS: end of sentence
举例: 假设语料库有以下3个句子,计算P(BROWN READ A BOOK)
(“BROWN READ HOLY BIBLE”,
“MARK READ A TEXT BOOK”,
“HE READ A BOOK BY DAVID”)
解答:
P(BROWN READ A BOOK)
=P(BROWN|BOS) * P(READ|BROWN) * P(A|READ) * P(BOOK|A) * P(EOS|BOOK)
=(1/3) * 1 * (2/3) * (1/2) * (1/2)
=1/18