PageRank算法及优化 综述报告

看完这些论文的感觉:Google提出了PageRank,之后十几年 一人改一点,就能一人写一篇论文(雾)
你一笔 我一笔 大家明天能毕业

说是综述报告,其实就是为了作业随便写的,随便看看就好。

Simplified PageRank

L. Page, S. Brin等1于1998年提出简化的PageRank算法:

\[PR(u)=c\sum_{v\in B(u)}\frac{PR(v)}{N_v} \]

其中:\(u\)表示某个网页,\(PR(u),PR(v)\)分别为\(u,v\)网页的排序值(网页的排名得分,即rank score),\(B(u)\)为连向\(u\)的网页集合,\(N_v\)为\(v\)的出度,\(c=1.0\)为factor used for normalization(标准化参数?)。

所有网页的排序值\(PR(x)\)可以通过迭代若干次计算。
但是,当一个网络中存在两个点及以上的环,且该环没有出边时,这个环会积累其它网页的排序值而不会传递出去,使得所有连向该环的网页的排序值变为\(0\),不合实际。这个问题叫做rank sink

PageRank

为解决rank sinkL. Page, S. Brin等1根据随机游走将简化的PageRank改为:

\[PR(u)=(1-d)+d\sum_{v\in B(u)}\frac{PR(v)}{N_v} \]

其中:\(d\)为dampening factor(不跳出概率?),通常设为\(0.85\)。

相比Simplified PageRank,该算法考虑了用户在浏览网页时有概率跳出当前浏览的网页,而任意再选择其它网页的情况,从而避免了rank sink
作者测试了该算法,大概在\(O(\log n)\)次迭代后排序值会收敛。

Weighted PageRank (WPR)

PageRank算法的每次迭代,将每个网页的排序值平均分给了它指向的网页。但在实际中,同一网页指向的不同链接的重要性可能不同,分到的排序值也应不同。
Wenpu Xing, Ali Ghorbani2在2004年发表Weighted PageRank Algorithm,提出了Weighted PageRank(WPR)算法:

\[PR(u)=(1-d)+d\sum_{v\in B(u)}PR(v)W_{(v,u)}^{in}W_{(v,u)}^{out} \]

\(W_{(v,u)}^{in}\)表示:考虑\(u\)的入度和\(v\)连向的所有点的入度,\(v\to u\)这条边该分配\(v\)的多少权值:

\[W_{(v,u)}^{in}=\frac{I_u}{\sum_{p\in R(v)}I_p} \]

其中:\(I_u\)表示\(u\)的入度,\(R(v)\)表示\(v\)连向点的集合。

\(W_{(v,u)}^{out}\)表示:考虑\(u\)的出度和\(v\)连向的所有点的出度,\(v\to u\)这条边该分配\(v\)的多少权值:

\[W_{(v,u)}^{out}=\frac{O_u}{\sum_{p\in R(v)}O_p} \]

其中:\(O_u\)表示\(u\)的出度,\(R(v)\)表示\(v\)连向点的集合。

作者认为,一个网页越受欢迎,连向它的网页越多,或它连出的网页越多。所以WPR根据\(v\)指向网页集合\(R(v)\)中点的出度和入度,分配\(v\)的排序值。这样\(v\)排序值会更多地分配到更受欢迎的网页上,而不是均分。
作者的实验表明:将WPR用于搜索,得到的结果的相关性高于传统PageRank算法。

PageRank based on Visits of Links (VOL)

Gyanendra Kumar等3在2011年发表Page Ranking Based on Number of Visits of Web Pages,提出了Page Ranking based on Visits of Links(VOL)算法:

\[PR(u)=(1-d)+d\sum_{v\in B(u)}\frac{L_uPR(v)}{TL(v)} \]

其中\(L_u\)表示通过链接\(v\to u\)访问\(u\)的次数,\(TL(v)\)表示\(\sum_{u\in R(v)}L_u\),即通过\(v\)上的链接访问其它网页的总次数。

该算法考虑了用户的浏览倾向,根据用户的实际浏览行为(链接的访问数)决定哪个网页更重要,将更多的排序值分配到用户浏览最多的网页上。
VOL与之前算法相比具有如下特点:

  1. 具有动态性,更符合网页搜素的特性。
  2. 结果不是仅与网络结构相关,还与用户行为有关,更具目标导向性。
  3. 用户可以在搜索的同时提高该算法的准确性。
  4. 一大问题是,需要动态统计每个网页上用户的浏览行为。

综上,VOL比传统PageRank的搜索结果更相关,但也带来了具体实现的问题。

Weighted PageRank based on Visits of Links (WPR VOL)

Neelam Tyagi, Simple Sharma4在2012年发表Weighted Page Rank Algorithm Based on Number of Visits of Links of Web Page,提出了Weighted PageRank based on Visits of Links(WPR VOL)算法:

\[WPR_{vol}(u)=(1-d)+d\sum_{v\in B(u)}\frac{L_uWPR_{vol}(v)W_{(v,u)}^{in}}{TL(v)} \]

其中:\(WPR_{vol}(u)\)是WPR VOL算法计算出的\(u\)的重要性\(PR(u)\),\(W_{(v,u)}^{in}\)是WPR中,考虑\(u\)的入度和\(v\)连向的所有点的入度,\(v\to u\)这条边该分配\(v\)的多少权值:

\[W_{(v,u)}^{in}=\frac{I_u}{\sum_{p\in R(v)}I_p} \]

因为VOL算法中考虑了\(v\)的
该算法将WPR与用户的实际浏览行为(链接的访问数),即VOL结合。

局部近似算法

蒙特卡洛

EWPR VOL(Advanced advanced VOL)

这边文章是介绍如何在 Markdown 中增加文献引用。1

参考

上一篇:PostgreSQL+Oracle跨库连接实操


下一篇:volatility源码版本安装