PageRank技术
使用PageRank技术可以用来对抗词项作弊(term spam)。
问题:词项作弊。是一种欺骗搜索引擎让其相信一个本来不相关的页面,使其排名靠前的技术。
解决方案:使用PageRank技术来模拟web冲浪者的行为,这些冲浪者从随机页面出发,每次从当前页面随机选择出链前行,该过程可以迭代多次。最终,这些冲浪者会在页面上汇合。较多冲浪者访问的网页重要性被认为高于那些高于那些较少冲浪者访问的网页。
在判断网页内容时,不仅考虑网页上出现的词项,还考虑指向给网页的链接中或周围所使用的词项。
PageRank技术的动机
PageRank定义
PageRank是一个函数,它对web中(或者至少是抓取并发现其中链接关系的一部分网页)的每个网页赋予一个实数值。它的意图在于,网页的PageRank越高,那么它就越“重要”。