Doc2bow的使用

Doc2bow是封装于Gensim中的方法,主要是实现bow模型

bow模型(词袋)模型使用一组单词(无序)来表示一个句子

先根据语料构建词典

每个句子可以用词典长度的一维向量来表示,向量不关心单词出现的顺序,只表示该位置的单词在样本中出现的频率。

gensim.corpora.Dictionary---根据语料库构建词典dictionary

dictionary.doc2bow---将每个句子样本表示成向量

similarity = gensim.similarities.Similarity('-Similarity-index', corpus, num_features=400)---构建相似度矩阵

使用:similarity[vector]---获取vector的相似度结果,之后可以进行排序,取前n个

 

上一篇:Python学习之:dictionary的注意事项


下一篇:我们如何在Android应用程序中提供字典服务?