1、安装scrapyd
服务端安装:pip install scrapyd
客户端安装:pip install scrapyd-client
2、启动scrapyd服务
服务端建立一个deploy文件夹,cd到该文件夹中,执行sudo scrapyd或scrapyd。这时在服务端主机的6800端口打开了scrapyd服务。
3、客户端安装gerapy
在客户端主机执行:pip3 install gerapy
4、gerapy配置启动
1)新建一个文件夹,cd到该文件夹执行gerapy init,然后在文件夹中会生成一个gerapy文件夹
2)cd到gerapy文件夹中,执行gerapy migrate进行初始化,会生成一个SQLite数据库,数据库保存主机配置信息和部署版本等
3)在gerapy目录下,执行gerapy runserver即启动gerapy服务到本机的8000端口。
5、启用主机
浏览器中打开127.0.0.1:8000进行管理界面
主机管理===》创建,输入服务端主机的scrapyd服务的ip和port(本机就是127.0.0.1:6800),起一个主机名字,完成创建之后即可对这个服务端的scrapyd服务进行管理。
6、项目部署
1)拷贝scrapy项目到gerapy文件夹下的project文件夹,将项目内的cfg文件内的deploy部分修改好(两个部分:deploy:部署名、ip_port)。
2)在gerapy管理界面进行项目部署,点击项目管理可以看到project中存在的项目,点击项目上的部署==》添加描述==》打包==》点击主机上的部署,即可完成部署
3)进入主机管理界面,点击调度就可以看到所有部署好的项目和爬虫(分布式爬虫开启:连续点击运行即可,会自动创建不同的进程运行)