使用BloomFilter布隆过滤器解决缓存击穿、垃圾邮件识别、集合判重

2021-11-06 10:50:11

Bloom Filter是一个占用空间很小、效率很高的随机数据结构，它由一个bit数组和一组Hash算法构成。可用于判断一个元素是否在一个集合中，查询效率很高（1-N，最优能逼近于1）。

在很多场景下，我们都需要一个能迅速判断一个元素是否在一个集合中。譬如：

网页爬虫对URL的去重，避免爬取相同的URL地址；

反垃圾邮件，从数十亿个垃圾邮件列表中判断某邮箱是否垃圾邮箱（同理，垃圾短信）；

缓存击穿，将已存在的缓存放到布隆中，当黑客访问不存在的缓存时迅速返回避免缓存及DB挂掉。

可能有人会问，我们直接把这些数据都放到数据库或者redis之类的缓存中不就行了，查询时直接匹配不就OK了？

是的，当这个集合量比较小，你内存又够大时，是可以这样做，你可以直接弄个HashSet、HashMap就OK了。但是当这个量以数十亿计，内存装不下，数据库检索极慢时该怎么办。

以垃圾邮箱为例

方案比较

1.将所有垃圾邮箱地址存到数据库，匹配时遍历

2.用HashSet存储所有地址，匹配时接近O（1）的效率查出来

3.将地址用MD5算法或其他单向映射算法计算后存入HashSet，无论地址多大，保存的只有MD5后的固定位数

4.布隆过滤器，将所有地址经过多个Hash算法，映射到一个bit数组

优缺点

方案1和2都是保存完整的地址，占用空间大。一个地址16字节，10亿即可达到上百G的内存。HashSet效率逼近O(1)，数据库就不谈效率了，不在一个数量级。

方案3保存部分信息，占用空间小于存储完整信息，存在冲突的可能（非垃圾邮箱可能MD5后和某垃圾邮箱一样，概率低）

方案4将所有地址经过Hash后映射到同一个bit数组，看清了，只有一个超大的bit数组，保存所有的映射，占用空间极小，冲突概率高。

大家知道，java中的HashMap有个扩容参数默认是0.75，也就是你想存75个数，至少需要一个100的数组，而且还会有不少的冲突。实际上，Hash的存储效率是0.5左右，存5个数需要10个的空间。算起来占用空间还是挺大的。

而布隆过滤器就不用为每个数都分配空间了，而是直接把所有的数通过算法映射到同一个数组，带来的问题就是冲突上升，只要概率在可以接受的范围，用时间换空间，在很多时候是好方案。布隆过滤器需要的空间仅为HashMap的1/8-1/4之间，而且它不会漏掉任何一个在黑名单的可疑对象，问题只是会误伤一些非黑名单对象。