1.含义
假设有一个字符串s,那么该字符串的N-Grams就表示按长度 N 切分原词得到的词段,也就是s中所有长度为 N 的子字符串。
该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
那么n-grams到底有什么应用呢?
2.应用
假设采用是2-gram模型,那么:
这之后就可以应用到搜索引擎的推荐当中去了
参考
https://blog.csdn.net/pangxing6491/article/details/89413724
https://www.zhihu.com/question/357850262/answer/910808076
https://zhuanlan.zhihu.com/p/32829048