在刚刚开始学习爬虫的时候,对什么都感兴趣,都想进行一次抓取的行动。一顿操作之后,发现爬虫连接不上网站了,百思不得解时,才发现原来被网站BAN掉了。被BAN就是爬虫被网站封杀了的意思。显然很多网站对爬虫是不太欢迎的,特别是网站的所有者。因为爬虫常常过快地连接网站,导致网站不能提供正常的访问。因此,编写爬虫一定要放慢爬行的速度,让网站所有者认为这是一种正常的访问,即使知道你是爬虫,只要不影响正常访问,也会网开一面的。导致爬行速度过快的爬虫,往往就在初学者中,因为他们根本就没有学习过爬虫的配置,也因为很多爬虫的书籍也不去说怎么样配置,更有一些网文提不提配置。所以初学者只有吃到闭门羹后,才番然醒悟要学习配置参数了。
我们创建一个scrapy的爬虫,一般目录长成这样:
在其中有一个配置文件,它就叫做settings.py文件,里面是scrapy的爬取配置。如果你仔细地打开这个文件,如下: