第3章 Scrapy框架介绍
Scrapy是一个为了爬取网站信息,提取结构性数据而编写的应用框架。Scrapy用途广泛,可用于数据挖掘、监测和自动化测试等。
3.1 网络爬虫原理
网络爬虫的英文为Web Spider,又称做网络蜘蛛或网络机器人。如果把互联网比喻成一张巨大的蜘蛛网,数据便是存放于蜘蛛网中的各个节点,爬虫就是网中爬行的蜘蛛,沿着网络抓取自己的猎物(数据)。
网络爬虫简单来说就是一种按照一定规则,自动地抓取互联网中信息的程序或脚本。
3.1.1 爬虫执行的流程
我们知道,网络爬虫执行的基本流程是:模拟用户使用浏览器向网站发送请求,网站响应请求后将网页文档发送过来,爬虫对网页做信息提取和存储。具体流程如图3-1所示。
图3-1 爬虫执行流程
图3-1中的爬虫执行流程,介绍如下:
(1)发送请求。
爬虫设定一个URL,模拟浏览器使用HTTP协议向网站服务器发送访问请求。
(2)获取HTML文档。
服务器接收到请求后,将HTML文档(或者图片、视频等其他资源)发送给爬虫。
(3)抽取数据。
爬虫使用XPath或BeautifulSoup从HTML文档中抽取出有用的数据。
(4)保存数据。
将抽取到的数据保存到文件(CSV、JSON、TXT等)或数据库(MySQL、MongoDB等)中,实现数据的持久化存储。
上面流程中的每一步,看似简单,但实现起来着实不易。如何伪装成浏览器?如何构造一个HTTP请求发送给网站服务器?如何获取网站服务器发送的HTML文档?如何抽取HTML数据?如何将每一个步骤关联起来?种种问题,在学习Scrapy爬虫框架后,都能轻松解决。还等什么呢?下面开始我们的Scrapy学习之旅吧!
3.2 Scrapy框架结构及执行流程
Scrapy框架结构和流程设计遵循网络爬虫的基本原理。通过组件封装不同的功能模块;通过请求和响应类封装数据流;通过引擎指挥整个系统协调运行。
3.2.1 Scrapy框架结构
理解了HTTP和爬虫的基本原理,就不难理解Scrapy的框架结构了。如图3-2所示为Scrapy的框架结构,包含了不同功能的组件、系统中发生的数据流及执行流程。
1.组件
下面简单介绍一下Scrapy框架结构中包含的组件。
- 引擎(Engine)
引擎犹如总指挥,是整个系统的“大脑”,指挥其他组件协同工作。 - 调度器(Scheduler)
调度器接收引擎发过来的请求,按照先后顺序,压入队列中,同时去除重复的请求。 - 下载器(Downloader)
下载器用于下载网页内容,并将网页内容返回给爬虫(Scrapy下载器是建立在twisted这个高效的异步模型上的)。 - 爬虫(Spiders)
爬虫作为最核心的组件,用于从特定的网页中提取需要的信息,即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面。
图3-2 Scrapy框架结构
- 项目管道(Item Pipelines)
项目管道负责处理爬虫从网页中抽取的实体。主要的功能是持久化实体、验证实体的有效性、清除不需要的信息等。 - 下载器中间件(Downloader Middlewares)
下载器中间件介于引擎和下载器之间,主要处理Scrapy引擎与下载器之间的请求及响应。 - 爬虫中间件(Spider Middlewares)
爬虫中间件介于引擎和爬虫之间,主要工作是处理爬虫的响应输入和请求输出。
2.数据流
Scrapy框架结构中传递和处理的数据主要有以下3种:
- 向网站服务器发送的请求数据(请求的内容见2.1.3节);
- 网站服务器返回的响应数据(响应的内容见2.1.4节);
- 解析后的结构数据(类似于字典)。
Scrapy中定义的Request和Response类,用于保存请求和响应数据;Item类保存解析后的结构数据。它们分别对应于图3-2中标识的Requests、Response和Items。
3.2.2 Scrapy执行流程
下面从数据流的角度介绍Scrapy框架的执行流程。
图3-2中第①、②、③、④步,执行的是HTTP请求,传递和处理的是向网站服务器发送的请求数据。
第①步:爬虫(Spider)使用URL(要爬取页面的网址)构造一个请求(Request)对象,提交给引擎(Engine)。如果请求要伪装成浏览器,或者设置代理IP,可以先在爬虫中间件中设置,再发送给引擎。
第②步:引擎将请求安排给调度器,调度器根据请求的优先级确定执行顺序。
第③步:引擎从调度器获取即将要执行的请求。
第④步:引擎通过下载器中间件,将请求发送给下载器下载页面。
图3-2中第⑤、⑥、⑦、⑧步,执行的是HTTP响应,传递和处理的是网站服务器返回的响应数据。
第⑤步:页面完成下载后,下载器会生成一个响应(Response)对象并将其发送给引擎。下载后的数据会保存于响应对象中。
第⑥步:引擎接收来自下载器的响应对象后,通过爬虫中间件,将其发送给爬虫(Spider)进行处理。
第⑦步:爬虫将抽取到的一条数据实体(Item)和新的请求(如下一页的链接)发送给引擎。
第⑧步:引擎将从爬虫获取到的Item发送给项目管道(Item Pipelines),项目管道实现数据持久化等功能。同时将新的请求发送给调度器,再从第②步开始重复执行,直到调度器中没有更多的请求,引擎关闭该网站。
3.3 Scrapy安装
Scrapy作为一个强大的爬虫框架,需要依赖于很多库。幸运的是,前面我们安装了Anaconda,它已经帮我们安装好了Scrapy所有的依赖库。因此,无论在哪个操作系统,安装Scrapy就非常简单了。
3.3.1 使用pip安装Scrapy
这里还是使用pip安装Scrapy框架,命令如下:
>pip install scrapy
3.3.2 常见安装错误
因为系统环境的差异,在安装Scrapy时,有时会出现各种意想不到的错误。例如,使用pip安装Scrapy时遇到Microsoft Visual C++14.0 is required错误,如图3-3所示。
图3-3 Scrapy安装时出现的错误
解决方法1
如果使用pip安装失败,可以试着使用Conda安装Scrapy,执行如下命令:
>conda install -c scrapinghub scrapy
安装过程中,可能会有升级Conda的提示,根据提示选择y就可以了,如图3-4所示。
图3-4 使用Conda安装Scrapy
解决方法2
根据提示可知,错误是由安装Twisted导致的,所以需要先安装Twisted。Twisted的下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,如图3-5所示。根据Python和操作系统的版本,选择对应的whl下载文件即可。其中,cp后面的数字是依赖的Python版本,amd64表示64位操作系统。下载完后,定位到Twisted安装包所在路径,执行以下命令安装Twisted。
>pip install Twisted-19.2.0-cp35-cp35m-win_amd64.whl
图3-5 Twisted下载页
成功安装Twisted后,就可以使用pip命令安装Scrapy了。
3.3.3 验证安装
Scrapy安装完成后,需要验证安装是否成功。在Python解释器界面,输入如下代码:
>import scrapy
运行代码后,如果没有错误提示信息,说明Scrapy已经安装成功。
3.4 第一个网络爬虫
正确安装Scrapy框架后,就可以创建Scrapy项目,实现第一个网络爬虫了。
3.4.1 需求分析
现要获取起点中文网中小说热销榜的数据(网址为https://www.qidian.com/rank/ hotsales?style=1&page=1),如图3-6所示。每部小说提取内容为:小说名称、作者、类型和形式。
图3-6 起点中文网中24小时热销榜
3.4.2 创建项目
首先,创建一个爬取起点中文网小说热销榜的Scrapy项目步骤如下:
(1)通过命令行定位到存放项目的目录(如D盘的scrapyProject文件夹)。
>d:
>cd d:scrapyProject
(2)创建一个名为qidian_hot的项目,命令如下:
>scrapy startproject qidian_hot
回车,得到如图3-7所示的创建成功信息。
图3-7 生成Scrapy项目
(3)查看项目结构。
在D盘的scrapyProject目录下,自动生成了qidian_hot项目。使用PyCharm打开项目,如图3-8所示为Scrapy项目的目录结构,它对应于图3-2中Scrapy的框架结构。
图3-8 Scrapy项目框架
Scrapy中组件的本质是一个个Python源文件,只要在源文件中实现各自的功能,爬虫功能就能自动实现了。
3.4.3 分析页面
通过Chrome浏览器的“开发者工具”,分析页面的HTML代码,确定数据解析的XPath方法步骤如下:
(1)在Chrome浏览器中,按F12键,显示“开发者工具”栏。
(2)输入网址https://www.qidian.com/rank/hotsales?style=1&page=1,回车。
(3)此时将显示24小时热销榜页面。选择“开发者工具”栏,单击最左边的元素选择按钮,将光标移动到任一部小说内容上并选中,对应的HTML代码
(4)分析页面结构。
不难发现,每部小说都包裹在
- 小说名称:div(class=" book-mid-info ") → h4 → a → 文本。
- 作者:div(class=" book-mid-info ") → p(第1个)→ a(第1个)→ 文本。
- 类型:div(class=" book-mid-info ") → p(第1个)→ a(第2个)→ 文本。
- 形式:div(class=" book-mid-info ") → p(第1个)→ span → 文本。
使用XPath获取小说内容,语法如下: - 小说名称:div[@class=" book-mid-info "]/ h4/a/text()。
- 作者:div[@class=" book-mid-info "]/ p[1]/a[1]/text()。
- 类型:div[@class=" book-mid-info "]/ p[1]/a[2]/text()。
- 形式:div[@class=" book-mid-info "]/ p[1]/span/text()。
图3-9 获取小说内容对应的HTML代码
3.4.4 实现Spider爬虫功能
下面实现爬虫功能。由图3-8得知,爬虫功能是在spiders目录下实现的。实现的步骤如下:
(1)在spiders目录下新建爬虫源文件qidian_hot_spider.py。
(2)在qidian_hot_spider.py文件中定义HotSalesSpider类,实现爬虫功能。
实现代码如下:
#--coding:utf-8--
from scrapy import Request
from scrapy.spiders import Spider
class HotSalesSpider(Spider):
#定义爬虫名称
name = 'hot'
#起始的URL列表
start_urls = ["https://www.qidian.com/rank/hotsales?style=1"]
#解析函数
def parse(self, response):
#使用xpath定位到小说内容的div元素,保存到列表中
list_selector = response.xpath("//div[@class='book-mid-info']")
#依次读取每部小说的元素,从中获取名称、作者、类型和形式
for one_selector in list_selector:
#获取小说名称
name = one_selector.xpath("h4/a/text()").extract()[0]
#获取作者
author = one_selector.xpath("p[1]/a[1]/text()").extract()[0]
#获取类型
type = one_selector.xpath("p[1]/a[2]/text()").extract()[0]
#获取形式(连载/完本)
form = one_selector.xpath("p[1]/span/text()").extract()[0]
#将爬取到的一部小说保存到字典中
hot_dict = {"name":name, #小说名称
"author":author, #作者
"type":type, #类型
"form":form} #形式
#使用yield返回字典
yield hot_dict
以上代码虽然添加了不少注释,但相信大家理解起来还是有点困难。不用担心,下一章将会详细讲解,这里先成功运行一个爬虫,建立信心和整体认识即可。
下面简单说明HotSalesSpider的实现方法。
- 爬虫所有的功能都是在类HotSalesSpider中实现的,它的基类为Spider。
- 类中定义了两个属性:name和start_urls。其中,name为爬虫名称,运行爬虫时需要用到;start_urls中存储的是目标网址的列表。如想要爬取两页热销榜的小说信息,可以将start_urls修改为:
start_urls = ["https://www.qidian.com/rank/hotsales?style=1",
"https://www.qidian.com/rank/hotsales?style=1&page=3"]
类中定义了一个方法parse(),这是爬虫的核心方法,通常完成两个任务:
- 提取页面中的数据。
- 提取页面中的链接,并产生对链接页面的下载请求。
3.4.5 运行爬虫
代码完成后,就可以使用命令执行爬虫了。
(1)通过命令行定位到qidian_hot项目目录下(很重要)。
>d:
>cd D:scrapyProjectqidian_hot
(2)输入爬虫执行命令(hot为爬虫名,hot.csv为保存数据的文件名)。
>scrapy crawl hot -o hot.csv
回车,爬虫程序开始执行,命令提示符中会不断显示爬虫执行时的信息。爬虫执行完后,数据会自动保存于hot.csv文件中。打开hot.csv文件查看数据,如图3-10所示。
图3-10 生成的CSV文件
需要特别注意的是,爬虫程序不能频繁执行。因为网站一般都有反爬虫措施,如频繁执行会被认定是爬虫程序,网站就会封掉你的IP,禁止访问。关于这个问题,下一章会给出解决方案。
3.4.6 常见问题
在生成的CSV文件中,有时会发现数据之间会有空行间隔,如图3-11所示。
图3-11 有空行的CSV文件
原因:这是Scrapy框架默认的组织形式,即数据之间以空行间隔。
解决方法:修改默认的组织形式。在Anaconda中找到exporters.py(笔者的是在C:Anaconda3Libsite-packagesscrapy目录下)。打开源文件,在类CsvItemExporter中添加一行代码,如图3-12所示。保存文件,重新运行爬虫程序。
图3-12 手动添加换行形式
3.5 本 章 小 结
本章首先介绍了网络爬虫的原理;接着介绍了Scrapy框架结构、执行流程及安装过程;最后以爬取起点中文网小说24小时热销榜为例,实现了第一个Scrapy爬虫案例,让大家对Scrapy爬虫有个初步的认识。