Python 文本相似度分析

2024-02-19 18:58:46

Anaconda3 Python 3.6, Window 64bit

利用 jieba 进行分词，关键词提取

利用gensim下面的corpora，models，similarities 进行语料库建立，模型tfidf算法，稀疏矩阵相似度分析

从结果可以得出：被对比的文件3 和文件2内容更相近。