n-gram

用过n-gram但没用好,所以改行了。没事瞎琢磨的:

n-门问题用来面试不坏。

什么叫句子的概率?设一个语言有10个句子,某个句子100%属于这个语言,P(该句子)=0.1而不是1,因为还有别的句子呢,句子们的概率和是1. 不过在比较句子的概率时,可以大家都放大一个倍数,免得一堆小数字乘到最后成了0.

P(A) * P(B|A) = P(AB) = P(B) * P(A|B),我们好像只用了半个式子?如果offline处理corpus和online用时都for i = n to 1 step -1,再加上现有的for (i = 0; i < n; i++),就算用全了吧。动量mv是笛卡尔发明的,一开始他没有考虑方向,惠更斯想到了速度是矢量。也许我们用的是矢量概率,语言不等于言语。

长句子比短句子吃亏,因为多乘了一堆0.x?如果乘了一堆1,不吃亏。P(中国)比P(中国人)大合理,因为有想象空间,再说言多必失。Hmmmmm

 

上一篇:词嵌入算法(转载)


下一篇:自然语言的分词方法之N-gram语言模型