原创转载请注明出处:https://www.cnblogs.com/agilestyle/p/11632490.html
背景
统计网站上每个网页每天的UV数据,UV和PV不一样,需要去重,同一个用户一天之内的多次访问请求只能计数一次。
Set方案
一个简单的方案,那就是为每一个页面设置一个独立的set集合来存储当天访问过此页面的用户ID。当一个请求过来时,使用sadd将用户ID塞进去就可以了。通过scard可以取出这个集合的大小,这个数字就是这个页面的UV数据。
但是,如果页面的访问量非常大,比如一款商品可能又几千万个UV,就需要一个很大的set集合来统计,这就非常浪费空间。如果这样的页面很多,那所需要的存储空间是惊人的。
HyperLogLog方案
Redis提供的HyperLogLog数据结构就是用来解决这种统计问题的。HyperLogLog提供不精确的去重计数方案,虽然不精确,但是也不是非常离谱,标准误差在0.81%,这样的精确度已经可以基本满足UV的统计需求。
相关指令
- pfadd
- pfcount
- pfmerge