精通Python网络爬虫：核心技术、框架与项目实战.3.4　网页分析算法

2021-08-21 04:23:02

3.4　网页分析算法

在搜索引擎中，爬虫爬取了对应的网页之后，会将网页存储到服务器的原始数据库中，之后，搜索引擎会对这些网页进行分析并确定各网页的重要性，即会影响用户检索的排名结果。

所以在此，我们需要对搜索引擎的网页分析算法进行简单了解。

搜索引擎的网页分析算法主要分为3类：基于用户行为的网页分析算法、基于网络拓扑的网页分析算法、基于网页内容的网页分析算法。接下来我们分别对这些算法进行讲解。

1.?基于用户行为的网页分析算法

基于用户行为的网页分析算法是比较好理解的。这种算法中，会依据用户对这些网页的访问行为，对这些网页进行评价，比如，依据用户对该网页的访问频率、用户对网页的访问时长、用户的单击率等信息对网页进行综合评价。

2.?基于网络拓扑的网页分析算法

基于网络拓扑的网页分析算法是依靠网页的链接关系、结构关系、已知网页或数据等对网页进行分析的一种算法，所谓拓扑，简单来说即结构关系的意思。基于网络拓扑的网页分析算法，同样主要可以细分为3种类型：基于网页粒度的分析算法、基于网页块粒度的分析算法、基于网站粒度的分析算法。

PageRank算法是一种比较典型的基于网页粒度的分析算法。相信很多朋友都听过Page-Rank算法，它是谷歌搜索引擎的核心算法，简单来说，它会根据网页之间的链接关系对网页的权重进行计算，并可以依靠这些计算出来的权重，对网页进行排名。当然，具体的算法细节有很多，在此不展开讲解。除了PageRank算法之外，HITS算法也是一种常见的基于网页粒度的分析算法。

基于网页块粒度的分析算法，也是依靠网页间链接关系进行计算的，但计算规则有所不同。我们知道，在一个网页中通常会包含多个超链接，但一般其指向的外部链接中并不是所有的链接都与网站主题相关，或者说，这些外部链接对该网页的重要程度是不一样的，所以若要基于网页块粒度进行分析，则需要对一个网页中的这些外部链接划分层次，不同层次的外部链接对于该网页来说，其重要程度不同。这种算法的分析效率和准确率，会比传统的算法好一些。

基于网站粒度的分析算法，也与PageRank算法类似，但是，如果采用基于网站粒度进行分析，相应的，会使用SiteRank算法。即此时我们会划分站点的层次和等级，而不再具体地计算站点下的各个网页的等级。所以其相对于基于网页粒度的算法来说，则更加简单高效，但是会带来一些缺点，比如精确度不如基于网页粒度的分析算法精确。

3.?基于网页内容的网页分析算法

在基于网页内容的网页分析算法中，会依据网页的数据、文本等网页内容特征，对网页进行相应的评价。

以上，我简单为大家介绍了搜索引擎中的网页分析算法，我们学习爬虫，需要对这些算法进行相应的了解。

码农公寓

相关文章