在pycharm中调试和运行scrapy

在pycharm中调试和运行scrapy

通常,运行scrapy爬虫的方式是在命令行输入scrapy crawl <spider_name>,调试的常用方式是在命令行输入scrapy shell <url_name>。总的来说,调试方法比较单一。其实,还有两种调试方法,可以在pycharm中实现调试。

1.使用scrapy.cmdline的execute方法

首先,在项目文件scrapy.cfg的同级建立main.py文件(注意,必须是同级建立),在其中键入如下代码:

from scrapy.cmdline import execute
import sys
import os

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

execute(['scrapy', 'crawl', 'spider_name'])  # 你需要将此处的spider_name替换为你自己的爬虫名称

在其余爬虫文件中设置断点后,运行(debug)main.py,即可实现在pycharm中的调试。

2.使用scrapy的CrawlerProcess方法

在项目文件scrapy.cfg的同级建立main.py文件(注意,必须是同级建立),在其中键入如下代码:

from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

if __name__ == '__main__':
    process = CrawlerProcess(get_project_settings())
    process.crawl('spider_name')    #  你需要将此处的spider_name替换为你自己的爬虫名称
    process.start()

在其余爬虫文件中设置断点后,运行(debug)main.py,即可实现在pycharm中的调试。
两种方式都很简单实用,值得掌握。

转载文档

作者:盗花
参考于简书:https://www.jianshu.com/p/6f7cf38d5792

上一篇:freebsd构建NFS、SAMBA、FTP


下一篇:BSD系统正在死亡?一些安全研究人员这样认为