码农公寓

网站首页
编程语言
- Java
- PHP
- C/C++
- IOS
- Android
- C#
- VB
- C语言
- R语言
- 易语言
- css
- html
- js
- JavaScript
- jQuery
- Swift
- ASP.NET
- ASP
- 正则表达式
- vb.net
- Golang
- bat
- VBA
- PowerShell
- Erlang
- autoit
- VBS
- perl
- Lua
- Dos
- Ruby
数据库
服务器知识
系统相关
设计相关
文章分享

数据量大的情况用布隆过滤器判断是否已存在

2024-03-02 09:36:40

处理待爬链接，目标网址数据量大的情况下，判断目标网址是否已存在

from bloom_filter import BloomFilter
bloom = BloomFilter(max_elements=10000000, error_rate=0.1)
# 添加URL
bloom.add('https://www.cnblogs.com/6min')

#判断是否在
exists = bloom.__contains__('https://www.cnblogs.com/6min')