Crawlspider

Spider的一个子类,用于全站数据爬取

全站爬取:

  1.基于Spider:手动请求发送

  2.基于Crawlspider:

  cralwspider使用:

    创建工程

    cdxxx

    创建爬虫文件(crawlspider):scrapy genspider -t crawl xxx www.xxx.com

  链接提取器:提取链接 根据指定规则(allow="正则")进行指定链接的提取

  规则解析器:

上一篇:全站数据爬虫CrawlSpider类


下一篇:python网络爬虫 CrawlSpider使用详解