社区开源的做法
常见的HBASE的问题是GC的问题
社区里做的BucketCache MemSore
原生的memstore是跳跃列表
插入的复杂度很高
查询的复杂度很高
是基于ConcurrentSkipListMap实现
但是ConcurrentSkipListMap的MemSore也有很多问题!
(1)新老索引的跨代引用,在做youngGC的时候还会扫描Old这样很好效率极低
(2)内存会越来越大,要维护的SKIPLIST索引的对象也会越来越多,然后会造成内存碎片
(3)数据长度不规则也会造成内存碎片
(4)索引对象本身也需要些内存
阿里的优化策略
阿里主要是做了云Hbase的MEMSTORE.
他的优化方面包括了
索引对象&数据内存空间高度聚合使之CPU的缓存效率高了很多
无碎片对GC友好、从而避免了Full GC的问题
节约了内存、加大了吞吐量
节约了YUONGGC的时间
阿里优化的MEMSTORE的原理是什么样的呢?
其实也是基于数组实现的SKIPLIST
每次去申请连续的CHURK内存(1个默认为2M的byte[])
Node的节点NEXT、KEYVALUE的所有信息全部放在chuck上
一些信息被压缩成若干个bit,然后再放入Hbase里
加强版的bucket cache
原生的bucket cache ,通过复制解决多个任务引用同一个Block;需要格外的拷贝开销
云HBase bucket cache 是通过基于引用计数实现Block 的智能指针