语言模型

n元语法模型

简单说,就是某一句子在语料库中出现的概率。n的取值不能太大

n=1 :称为一元语法模型,记为uni-gram
n=2 :称为二元语法模型,又称一阶马尔可夫链,记为bi-gram,它仅与它前面的一个历史词有关
n=3 :称为三元语法模型,又称二阶马尔可夫链,记为tri-gram,它仅与它前面的两个历史词有关

回顾高数:P(ABCDE)=P(A)P(B|A)P(C|AB)P(D|ABC)P(E|ABCD)

由此可得二元语法模型P(ABCDE):
P(ABCDE)=P(A|BOS)P(B|A)P(C|B)P(D|C)P(E|D)P(EOS|E)

BOS: begin of sentence
EOS: end of sentence

举例: 假设语料库有以下3个句子,计算P(BROWN READ A BOOK)
(“BROWN READ HOLY BIBLE”,
“MARK READ A TEXT BOOK”,
“HE READ A BOOK BY DAVID”)

解答:
P(BROWN READ A BOOK)

=P(BROWN|BOS) * P(READ|BROWN) * P(A|READ) * P(BOOK|A) * P(EOS|BOOK)

=(1/3) * 1 * (2/3) * (1/2) * (1/2)

=1/18

上一篇:java-缓冲流


下一篇:复制多级文件夹