TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索和文本挖掘的常用加权技术。它通过计算词汇在文档中的频率(Term Frequency, TF)和在整个语料库中的逆文档频率(Inverse Document Frequency, IDF),来评估词汇的重要性和相关性。
TF-IDF的计算公式如下:
简单来说关键词出现的次数越多且存在于其他文档中的频率越低,那么这个关键词就越重要。
2024-10-21 20:33:19
TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索和文本挖掘的常用加权技术。它通过计算词汇在文档中的频率(Term Frequency, TF)和在整个语料库中的逆文档频率(Inverse Document Frequency, IDF),来评估词汇的重要性和相关性。
TF-IDF的计算公式如下:
简单来说关键词出现的次数越多且存在于其他文档中的频率越低,那么这个关键词就越重要。