爬虫部署:scrapyd+gerapy

1、安装scrapyd

服务端安装:pip install scrapyd

客户端安装:pip install scrapyd-client

2、启动scrapyd服务

服务端建立一个deploy文件夹,cd到该文件夹中,执行sudo scrapyd或scrapyd。这时在服务端主机的6800端口打开了scrapyd服务。

3、客户端安装gerapy

在客户端主机执行:pip3 install gerapy

4、gerapy配置启动

1)新建一个文件夹,cd到该文件夹执行gerapy init,然后在文件夹中会生成一个gerapy文件夹

2)cd到gerapy文件夹中,执行gerapy migrate进行初始化,会生成一个SQLite数据库,数据库保存主机配置信息和部署版本等

3)在gerapy目录下,执行gerapy runserver即启动gerapy服务到本机的8000端口。

5、启用主机

浏览器中打开127.0.0.1:8000进行管理界面

主机管理===》创建,输入服务端主机的scrapyd服务的ip和port(本机就是127.0.0.1:6800),起一个主机名字,完成创建之后即可对这个服务端的scrapyd服务进行管理。

6、项目部署

1)拷贝scrapy项目到gerapy文件夹下的project文件夹,将项目内的cfg文件内的deploy部分修改好(两个部分:deploy:部署名、ip_port)。

2)在gerapy管理界面进行项目部署,点击项目管理可以看到project中存在的项目,点击项目上的部署==》添加描述==》打包==》点击主机上的部署,即可完成部署

3)进入主机管理界面,点击调度就可以看到所有部署好的项目和爬虫(分布式爬虫开启:连续点击运行即可,会自动创建不同的进程运行)

上一篇:scrapyd+gerapy之爬虫部署


下一篇:python核心教程:scrapyd和scrapydweb使用详细教程