TF-IDF笔记整理

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。

还是比较简单的,整理了资料供大家观看。

tf(term frequency )-统计词频

idf(inverse document frequency)-逆文档频率

比如在多篇文档中一个词经常出现像to,I,is,这种词语不能作为关键词,所以idf就会让这种词的权重很小,这样tf-idf算法就会让在少数文档中而且词频还高的词tf-idf值大,按值的大小从大到小排序


参考资料 

TF-IDF算法介绍及实现_Asia-Lee-CSDN博客_tf-idf

机器学习:生动理解TF-IDF算法 - 知乎 

刘建平先生关于tf-idf的博客

上一篇:Chapter 2.2 高频词和关键词提取(二)续


下一篇:esp-idf手动设置系统时间