redis--bloomFilter

2021-11-12 07:02:49

需求：50亿个电话号码，查找10万个，判断10w个电话号码是否存在？
用bitmap/hyperloglog的话，亿级数据也是非常吃内存哟。

是个啥：

由一个初始值都为0的bit数组和多个哈希函数构成，用于快速判断某个数据是否存在。(多个hash函数，减少hash冲突概率)
本质：用于快速判断数据是否存在于一个大的集合中。类似set，但是统计结果不太准确。

1.插入、查询高效，占空间少，返回结果不确定。
2.一个元素，存在时，bloom来判断它不一定就存在；但是不存在的，bloom来判断，结果一定不存在。（hash冲突）
3.可以添加元素，但是不能删除，删除导致误判率增大
4.误判只会发生在bloom没添加过的元素，添加过的元素不会误判

空对象缓存治标不治本！黑客短时间发送大量不同的、不存在的key的话，依旧会造成压力。

fpp(误差率)设置的不是越小越好，误判率低，空间占比大，同时执行效率也会降低。

这就是不能删除的原因：多个哈希函数对多个obj哈希运算时，有可能出现上图3号槽位的冲突，删除后俩对象都被删除，但实质上俩对象都是存在的，会被误判为俩对象不存在。

1.初始化。

2.添加元素至过滤器（给存在于redis的数据按位打个0/1★标识★，并非把真实数据存入过滤器！）。

3.判断是否存在。

往redis存之后再存入bloom，只要bloom中有，没那么redis大概率也有，bloom有误判偶尔缓存穿透一两次无所谓；只要bloom判断没有，那么就不必去redis查了。

sout(“Aa”.hashcode());
sout(“BB”.hashcode());
2.

下一代：布谷鸟过滤器。可以删除，查询效率和空间利用率都优于bloom