《Hadoop与大数据挖掘》一2.6　TF-IDF算法原理及Hadoop MapReduce实现

2023-11-22 20:09:58

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章，第2.6节，张良均　樊　哲　位文超　刘名军许国杰　周　龙　焦正升　著更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.6　TF-IDF算法原理及Hadoop MapReduce实现

2.6.1　TF-IDF算法原理
原理：在一份给定的文件里，词频（Term Frequency，TF）指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化，以防止它偏向长的文件（同一个词语在长文件里可能会比在短文件里有更高的词频，而不管该词语重要与否）。逆向文件频率（Inverse Document Frequency，IDF）是一个词语普遍重要性的度量。某一特定词语的IDF可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。
举个例子来说，假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是3/100＝0.03。一个计算文件频率的方法是测定有多少份文件出现过“母牛”一词，然后除以文件集里包含的文件总数。所以，如果“母牛”一词在1000份文件出现过，而文件总数是10 000 000份的话，其逆向文件频率就是log(10 000 000/1 000)＝4。最后的TF-IDF的分数为0.03×4＝0.12。

码农公寓

2.6 TF-IDF算法原理及Hadoop MapReduce实现

相关文章

2.6　TF-IDF算法原理及Hadoop MapReduce实现