精通Python网络爬虫：核心技术、框架与项目实战.3.2　爬行策略

2023-11-25 21:55:34

3.2　爬行策略

在网络爬虫爬取的过程，在待爬取的URL列表中，可能有很多URL地址，那么这些URL地址，爬虫应该先爬取哪个，后爬取哪个呢？在通用网络爬虫中，虽然爬取的顺序并不是那么重要，但是在其他很多爬虫中，比如聚焦网络爬虫中，爬取的顺序非常重要，而爬取的顺序，一般由爬行策略决定。在这一节中，我们将为大家介绍一些常见的爬行策略。

爬行策略主要有深度优先爬行策略、广度优先爬行策略、大站优先策略、反链策略、其他爬行策略等。下面我们将分别进行介绍。

如图3-3所示，假设有一个网站，ABCDEFG分别为站点下的网页，图中箭头表示网页的层次结构。

假如此时网页ABCDEFG都在爬行队列中，那么按照不同的爬行策略，其爬取的顺序是不同的。

比如，如果按照深度优先爬行策略去爬取的话，那么此时会首先爬取一个网页，然后将这个网页的下层链接依次深入爬取完再返回上一层进行爬取。

所以，若按深度优先爬行策略，图3-3中的爬行顺序可以是：A → D → E → B → C → F → G。

如果按照广度优先的爬行策略去爬取的话，那么此时首先会爬取同一层次的网页，将同一层次的网页全部爬取完后，在选择下一个层次的网页去爬行，比如，上述的网站中，如果按照广度优先的爬行策略去爬取的话，爬行顺序可以是：A→B→C→D→E→F→G。

除了以上两种爬行策略之外，我们还可以采用大站爬行策略。我们可以按对应网页所属的站点进行归类，如果某个网站的网页数量多，那么我们则将其称为大站，按照这种策略，网页数量越多的网站越大，然后，优先爬取大站中的网页URL地址。

一个网页的反向链接数，指的是该网页被其他网页指向的次数，这个次数在一定程度上代表着该网页被其他网页的推荐次数。所以，如果按反链策略去爬行的话，那么哪个网页的反链数量越多，则哪个网页将被优先爬取。但是，在实际情况中，如果单纯按反链策略去决定一个网页的优先程度的话，那么可能会出现大量的作弊情况。比如，做一些垃圾站群，并将这些网站互相链接，如果这样的话，每个站点都将获得较高的反链，从而达到作弊的目的。作为爬虫项目方，我们当然不希望受到这种作弊行为的干扰，所以，如果采用反向链接策略去爬取的话，一般会考虑可靠的反链数。

除了以上这些爬行策略，在实际中还有很多其他的爬行策略，比如OPIC策略、Partial PageRank策略等。

码农公寓

相关文章