一、Scrapy概述
1、什么是?
异步爬虫框架
2、Scrapy它有什么优势?
可配置和可扩展性非常高;
Scrapy框架是基于Twisted异步网络框架:复杂 、闭包
(更多参考http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html)
二、Scrapy的工作流程
红框中就是我们通常需要编写的。
三、Scrapy快速入门
目标url:https://www.douban.com/
需求:爬取的内容 、标题。如下图:
第一步 、创建scrapy项目
在dos命令行 或者pycharm终端输入:
scrapy startproject mySpider(scrapy项目的名称)
结果:
第二步 创建爬虫程序
根据上一步结果中的提示:
继续在cmd中输入cd mySpider,之后,又因为我们要爬取的网站是www.douban.com,我们继续输入
scrapy genspider douban “douban.com” (douban是爬虫的名字 ;douban.com是爬取的范围)
结果: