python scrapy爬虫数据库去重方法

2022-11-18 10:14:36

1. scrapy对request的URL去重

yield scrapy.Request(url, self.parse, dont_filter=False)

注意这个参数：dont_filter=False

2. Jobs: 暂停，恢复爬虫

启用一个爬虫的持久化，运行以下命令:

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

然后，你就能在任何时候安全地停止爬虫(按Ctrl-C或者发送一个信号)。

恢复这个爬虫也是同样的命令:

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

这样爬虫断掉后，再启动会接着上次的 url 跑。

详细请看 https://www.howtoing.com/scra...

如果命令行里不想看到那么多输出的话，可以加个 -L WARNING 参数

运行爬虫如：

scrapy crawl spider1 -L WARNING

1、Pipleline 加入如下代码：（在数据爬完后将URL塞入redis去重）

class RedisInsert(object):    
   def process_item(self,item,spider):    
    set_redis_values_1(item['url'])    
    return item

2、Middleware加入如下代码：（在爬数据之前查看该URL是否爬取过）

class IngoreRequestMiddleware(object):  
  def __init__(self):    
    self.middlewareLogging=getLogger("IngoreRequestMiddleware")  
   def process_request(self,request,spider):    
    if get_redis_values_1(request.url):       
     self.middlewareLogging.debug("IgnoreRequest : %s" % request.url)        
    raise IgnoreRequest("IgnoreRequest : %s" % request.url)   
     else:           

 self.middlewareLogging.debug("haveRequest : %s" % request.url)      
      return None

---------------------

码农公寓

相关文章