Doc2bow是封装于Gensim中的方法,主要是实现bow模型
bow模型(词袋)模型使用一组单词(无序)来表示一个句子
先根据语料构建词典
每个句子可以用词典长度的一维向量来表示,向量不关心单词出现的顺序,只表示该位置的单词在样本中出现的频率。
gensim.corpora.Dictionary---根据语料库构建词典dictionary
dictionary.doc2bow---将每个句子样本表示成向量
similarity = gensim.similarities.Similarity('-Similarity-index', corpus, num_features=400)---构建相似度矩阵
使用:similarity[vector]---获取vector的相似度结果,之后可以进行排序,取前n个