pyspider是国人binux编写的强大的网络爬虫框架,它带有强大的WebUI、脚本编辑器、任务监控器、项目管理器以及结果处理器,同时支持多种数据库后端、多种消息队列,另外还支持JavaScript渲染页面的爬取,使用起来非常方便,
准备工作pyspider是支持JavaScript渲染的,而这个过程是依赖于PhantomJS的,所以还需要安装PhantomJS
pip安装
pip3 install pyspider
验证安装
安装完成之后,可以直接在命令行下启动pyspider:
pyspider all
这时pyspider的Web服务就会在本地5000端口运行。直接在浏览器中打开http//ocalhost:5000/,即可进入pyspider的WebUI管理页面,
报错
pip3 install pycurl
=====================================================================
Scrapy的安装
Scrapy是一个十分强大的爬虫框架,依赖的库比较多,至少需要依赖的库有Twisted 14.0,lxml 3.4和pyOpenSSL 0.14,在不同的平台环境下,它所依赖的库也各不相同,所以在安装之前,最好确保把一些基本库安装好。
在Ubuntu,Debian和Deepin平台下,首先确保一些依赖库已经安装,运行如下命令:
sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev
然后利用pip安装Scrapy即可:
pip3 install Scrapy
验证安装
安装之后,在命令行下输入
scrapy