人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 5.PageRank技术

PageRank技术

使用PageRank技术可以用来对抗词项作弊(term spam)。
问题:词项作弊。是一种欺骗搜索引擎让其相信一个本来不相关的页面,使其排名靠前的技术。
解决方案:使用PageRank技术来模拟web冲浪者的行为,这些冲浪者从随机页面出发,每次从当前页面随机选择出链前行,该过程可以迭代多次。最终,这些冲浪者会在页面上汇合。较多冲浪者访问的网页重要性被认为高于那些高于那些较少冲浪者访问的网页。
在判断网页内容时,不仅考虑网页上出现的词项,还考虑指向给网页的链接中或周围所使用的词项。

PageRank技术的动机

  1. web用户会用脚投票
  2. 随机冲浪者 random surfer的行为表明web用户可能访问那些网页。用户更可能访问有用而不是无用的网页。类似于随机游走

PageRank定义

PageRank是一个函数,它对web中(或者至少是抓取并发现其中链接关系的一部分网页)的每个网页赋予一个实数值。它的意图在于,网页的PageRank越高,那么它就越“重要”。

TrustRank是面向主题的PageRank
HITS(hyperlink-induced topic search)在查询处理过程中用于与查询相关的结果的排序。

Web是一个图 Graph

作为有向图:directed graph
  1. 节点:网页 Nodes: Webpages
  2. 边缘:超链接 Edges: Hyperlinks

pageRank好处

  • 特定于主题的(个性化的)Personalized PageRank
  • Web垃圾邮件检测算法

pageRank分数实例

人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 5.PageRank技术

随机游走 random walk 的表达

人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 5.PageRank技术

计算pageRank

人工智能教程 - 专业选修课程4.3.11 - 复杂结构数据挖掘 5.PageRank技术

PageRank存在的问题和解决方案

问题:衡量一个页面是具有普遍意义的受欢迎程度

  • 针对特定主题存在误差

  • 解决方案:特定主题的Topic-Specific PageRank

问题:使用单一重要的衡量指标

  • 其他重要模型

  • 解决方案:中心和权限 Hubs-and-Authorities

问题:容易链接到欺骗网页

  • 为了提升网页排名,创建人工链接拓扑网

  • 解决方案:TrustRank

上一篇:训练网络的保存和提取


下一篇:< 链接分析算法 - PageRank算法 >