今天,python 3 安装 scrapy, 并运行成功。特此纪念!
我的环境:windows 10(64位) + python 3.5.2(64位)
其中几个要点说明一下:
1、有几个依赖库需要事先单独安装
往往,在安装scrapy依赖库,即在
pip install scrapy
过程中,会出现红色错误的。此时,做两件事
- 更新pip:
$ python pip install --upgrade pip
- 去lfd下载单独的whl文件,pip安装之(若有多个依赖库安装出现红色文字错误,则此步重复!)
2、特别地,pywin32的安装问题
- 去lfd下载单独的whl文件,pip安装之
- 然后,运行命令
$ python pywin32_postinstall.py -install
,切记!
好了,运行官网首页的例子:
import scrapy
class BlogSpider(scrapy.Spider):
name = 'blogspider'
start_urls = ['https://blog.scrapinghub.com']
def parse(self, response):
for url in response.css('ul li a::attr("href")').re('.*/category/.*'):
yield scrapy.Request(response.urljoin(url), self.parse_titles)
def parse_titles(self, response):
for post_title in response.css('div.entries > ul > li a::text').extract():
yield {'title': post_title}
保存为myspider.py文件,命令行进入此文件夹,运行如下命令,使启动爬虫:
scrapy runspider myspider.py
OK了,可以看到成功的信息。