爬虫笔记24:Scrapy概述、Scrapy的工作流程、Scrapy快速入门

一、Scrapy概述
1、什么是?
异步爬虫框架
2、Scrapy它有什么优势?
可配置和可扩展性非常高;
Scrapy框架是基于Twisted异步网络框架:复杂 、闭包
(更多参考http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html)

二、Scrapy的工作流程
爬虫笔记24:Scrapy概述、Scrapy的工作流程、Scrapy快速入门
爬虫笔记24:Scrapy概述、Scrapy的工作流程、Scrapy快速入门
红框中就是我们通常需要编写的。

三、Scrapy快速入门
目标url:https://www.douban.com/
需求:爬取的内容 、标题。如下图:

第一步 、创建scrapy项目
在dos命令行 或者pycharm终端输入:
scrapy startproject mySpider(scrapy项目的名称)

结果:
爬虫笔记24:Scrapy概述、Scrapy的工作流程、Scrapy快速入门
第二步 创建爬虫程序
根据上一步结果中的提示:
爬虫笔记24:Scrapy概述、Scrapy的工作流程、Scrapy快速入门
继续在cmd中输入cd mySpider,之后,又因为我们要爬取的网站是www.douban.com,我们继续输入
scrapy genspider douban “douban.com” (douban是爬虫的名字 ;douban.com是爬取的范围)

结果:
爬虫笔记24:Scrapy概述、Scrapy的工作流程、Scrapy快速入门

上一篇:爬取当当网 --------分布式爬虫scrapy_redis--------python爬虫案例


下一篇:shell log