简介
安装与使用
安装scrapy
键入命令即可
$ pip install scrapy
初步使用
新建项目
在想要创建工程的文件夹目录下面,键入命令:
scrapy startproject projectName
projectName为项目的名字
创建一个爬虫文件
进入工程目录当中,在spiders子目录中创建一个爬虫文件:
scrapy genspider spiderName www.xxx.com
爬虫文件解析
import scrapy
class FirstSpider(scrapy.Spider):
name='first'
# 允许的域名
# 用来限定start_urls列表中那些url可以进行请求发送
allowed_domains = ['www.xxx.com']
# 起始的url列表
# 该列表中存放的url会被scrapy自动进行请求的发送
start_urls = ['http://www.xxx.com/']
# 用作数据解析
# response参数表述的是请求成功后对应的相应对象
def parse(self, response):
pass
settings配置
关闭robots.txt
在settings中,scrapy默认开启了遵从robots.txt这一反爬的君子协议。
我们在学习阶段将其关掉。
更改 USER_AGENT
复制浏览器中的USER_AGENT赋给USER_AGENT变量。
执行工程
scrapy crawl spiderName
输出中有很多日志影响我们查找我们需要的信息,如果不打印日志,可以使用下述方式执行工程:
# 不打印日志
scrapy crawl spiderName --nolog
然而,这样存在一个问题。也就是,当程序存在错误的时候,依然不会显示出来。
所以,我们推荐使用下述的方式来隐藏一些不必要的日志信息:
# 只打印错误日志
LOG_LEVEL = 'ERROR'
scrapy数据解析
和xpath语法基本一致。
scrapy持久化存储
当解析到网页内容后,我们需要进行持久化操作。
基于终端指令
只可以将parse方法的返回值存储到本地的文本文件中。
$ scrapy crawl xxx -o filePath
持久化存储对应的文本文件类型只可以为json、jsonlines、jl、csv、xml、marshal、pickle