网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务

2022-10-15 12:29:51

上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫（使用Beautiful Soup编写一个爬虫系列随笔汇总），

BeautifulSoup是一个非常流行的Python网络抓取库，它提供了一个基于HTML结构的Python对象。

虽然简单易懂，又能非常好的处理HTML数据，但是相比Scrapy而言，BeautifulSoup有一个最大的缺点：慢。

Scrapy 是一个开源的

Python

数据抓取框架，速度快，强大，而且使用简单。

来看一个官网主页上的简单并完整的爬虫：

网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务

虽然只有10行左右的代码，但是它的确是一个完整的爬虫服务：

当执行scrapy runspider xxx.py命令的时候， Scrapy在项目里查找Spider(蜘蛛