TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
还是比较简单的,整理了资料供大家观看。
tf(term frequency )-统计词频
idf(inverse document frequency)-逆文档频率
比如在多篇文档中一个词经常出现像to,I,is,这种词语不能作为关键词,所以idf就会让这种词的权重很小,这样tf-idf算法就会让在少数文档中而且词频还高的词tf-idf值大,按值的大小从大到小排序
参考资料
TF-IDF算法介绍及实现_Asia-Lee-CSDN博客_tf-idf
刘建平先生关于tf-idf的博客