scrapy安装(window)
安装步骤和可能遇到的问题
注意自己安装的python的pip版本和计算机位数之后库版本和它有关系
安装必要的Microsoft Visual C++ 14.0插件
更新pip版本: pip install --upgrade pip --force-reinstall
更新所有库:
pip install pip-review
pip-review --local --interactive
查看pip版本: pip show pip
运行指定版本(3.6)的python的pip: py -3.6 -m pip show pip
安装离线的第三方库(文件路径): pip install D:\xl\wheel-0.9.5-py2.py3-none-any.whl
库安装顺序: wheel(解析离线库安装重要) requests lxml pyOpenSSL Twisted (容易安装失败) scrapy(会自动安装依赖包)
暴力安装离线库的方法:
- 下载需要安装的.whl文件
- 将文件的.whl改为.zip后解压
- 只将不带.什么文件复制到python安装目录下的Lib文件下
- 注意:这样安装的文件pip里面看不到配置信息,但是可以用
- 离线包下载地址: https://www.lfd.uci.edu/~gohlke/pythonlibs/
使用脚本安装: (python镜像网站地址)
@echo off
pip --default-timeout=100 install requests -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip --default-timeout=100 install lxml -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip --default-timeout=100 install pyOpenSSL -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip --default-timeout=100 install Twisted -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip --default-timeout=100 install pywin32 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip --default-timeout=100 install scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pause
scrapy项目创建
需要在cmd通过命令来自动创建项目,pycharm自带cmd命令控制台
切换到需要创建的工作目录,创建项目
scrapy startproject myScrapy 格式: scrapy startproject 项目名
用pycharm打开项目
文件说明:
- scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)
- items.py 设置数据存储模板,用于结构化数据,如:Django的Model
- pipelines 数据处理行为,如:一般结构化的数据持久化
- settings.py 配置文件,如:递归的层数、并发数,延迟下载等
- spiders 爬虫目录,如:创建文件,编写爬虫规则
使用命令自动生成一个主文件
Scrapy genspider baidu www.baidu.com 格式: Scrapy genspider 爬虫名 爬取的网址
运行爬虫
输入scrapy crawl baidu 运行爬虫 格式为: scrapy crawl 爬虫名