阿里 Hbase的优化策略(上)

社区开源的做法

阿里 Hbase的优化策略(上)

常见的HBASE的问题是GC的问题

社区里做的BucketCache MemSore

原生的memstore是跳跃列表

插入的复杂度很高

查询的复杂度很高

是基于ConcurrentSkipListMap实现

但是ConcurrentSkipListMap的MemSore也有很多问题!

(1)新老索引的跨代引用,在做youngGC的时候还会扫描Old这样很好效率极低

(2)内存会越来越大,要维护的SKIPLIST索引的对象也会越来越多,然后会造成内存碎片

(3)数据长度不规则也会造成内存碎片

(4)索引对象本身也需要些内存

阿里 Hbase的优化策略(上)

阿里的优化策略

阿里主要是做了云Hbase的MEMSTORE.

他的优化方面包括了

索引对象&数据内存空间高度聚合使之CPU的缓存效率高了很多
无碎片对GC友好、从而避免了Full GC的问题
节约了内存、加大了吞吐量
节约了YUONGGC的时间
阿里优化的MEMSTORE的原理是什么样的呢?

其实也是基于数组实现的SKIPLIST

每次去申请连续的CHURK内存(1个默认为2M的byte[])
Node的节点NEXT、KEYVALUE的所有信息全部放在chuck上
一些信息被压缩成若干个bit,然后再放入Hbase里

阿里 Hbase的优化策略(上)

加强版的bucket cache

原生的bucket cache ,通过复制解决多个任务引用同一个Block;需要格外的拷贝开销
云HBase bucket cache 是通过基于引用计数实现Block 的智能指针

阿里 Hbase的优化策略(上)

上一篇:OpenSearch:轻松构建大数据搜索服务


下一篇:云栖大会SaaS加速器专场 | 阿里云郑刚:SaaS上云工具包为企业应用构筑上云之梯