Spider的一个子类,用于全站数据爬取
全站爬取:
1.基于Spider:手动请求发送
2.基于Crawlspider:
cralwspider使用:
创建工程
cdxxx
创建爬虫文件(crawlspider):scrapy genspider -t crawl xxx www.xxx.com
链接提取器:提取链接 根据指定规则(allow="正则")进行指定链接的提取
规则解析器:
2023-10-21 16:10:58
Spider的一个子类,用于全站数据爬取
全站爬取:
1.基于Spider:手动请求发送
2.基于Crawlspider:
cralwspider使用:
创建工程
cdxxx
创建爬虫文件(crawlspider):scrapy genspider -t crawl xxx www.xxx.com
链接提取器:提取链接 根据指定规则(allow="正则")进行指定链接的提取
规则解析器: