概述:
HBaseFsck(hbck)是一个用于检查区域一致性和表完整性问题并修复损坏的HBase的工具。
作用:
-
HBase Region一致性
- 集群中所有 region 都 被 assign,而且 deploy 到唯一一台RegionServer上
- 该 region 的状态在内存中、hbase:meta 表中以及 zookeeper 这三个地方需要保持一致
-
HBase 表完整性
- 对于集群中任意一张表,每个rowkey都仅能存在于一个region区间
常用命令:
# hbck 帮助文档
./bin/hbase hbck -help
# 检查 HBase 集群是否损坏
./bin/hbase hbck
# 只检测元数据表的状态
./bin/hbase hbck -metaonly
# 使用该 -details 选项将报告更多细节,包括所有表格中所有分割的代表性列表
./bin/hbase hbck –details
# 以下命令只会尝试检查表 TableFoo 和 TableBar
./bin/hbase hbck TableFoo TableBar
新版本的 hbck 可以修复各种错误,修复选项是:
- -fix,向下兼容用,被-fixAssignments替代
- -fixAssignments,用于修复region assignments错误
- -fixMeta,用于修复meta表的问题,前提是HDFS上面的region info信息有并且正确。
- -fixHdfsHoles,修复region holes(空洞,某个区间没有region)问题
- -fixHdfsOrphans,修复Orphan region(hdfs上面没有.regioninfo的region)
- -fixHdfsOverlaps,修复region overlap
- s(区间重叠)问题
- -fixVersionFile,修复缺失hbase.version文件的问题
-
-maxMerge
(n默认是5) ,当region有重叠是,需要合并region,一次合并的region数最大不超过这个值。 - -sidelineBigOverlaps ,当修复region overlaps问题时,允许跟其他region重叠次数最多的一些region不参与(修复后,可以把没有参与的数据通过bulk load加载到相应的region)
-
-maxOverlapsToSideline
(n默认是2),当修复region overlaps问题时,一组里最多允许多少个region不参与 由于选项较多,所以有两个简写的选项 - -repair,相当于-fixAssignments -fixMeta -fixHdfsHoles -fixHdfsOrphans -fixHdfsOverlaps -fixVersionFile -sidelineBigOverlaps
- -repairHoles,相当于-fixAssignments -fixMeta -fixHdfsHoles -fixHdfsOrphans
新版本的 hbck (经典案例)
-
缺失hbase.version文件
加上选项 -fixVersionFile 解决
-
如果一个region即不在META表中,又不在hdfs上面,但是在regionserver的online region集合中
加上选项 -fixAssignments 解决
-
如果一个region在META表中,并且在regionserver的online region集合中,但是在hdfs上面没有
加上选项 -fixAssignments -fixMeta 解决,( -fixAssignments告诉regionserver close region),( -fixMeta删除META表中region的记录)
-
如果一个region在META表中没有记录,没有被regionserver服务,但是在hdfs上面有
加上选项 -fixMeta -fixAssignments 解决,( -fixAssignments 用于assign region),( -fixMeta用于在META表中添加region的记录)
-
如果一个region在META表中没有记录,在hdfs上面有,被regionserver服务了
加上选项 -fixMeta 解决,在META表中添加这个region的记录,先undeploy region,后assign
-
如果一个region在META表中有记录,但是在hdfs上面没有,并且没有被regionserver服务
加上选项 -fixMeta 解决,删除META表中的记录
-
如果一个region在META表中有记录,在hdfs上面也有,table不是disabled的,但是这个region没有被服务
加上选项 -fixAssignments 解决,assign这个region
-
如果一个region在META表中有记录,在hdfs上面也有,table是disabled的,但是这个region被某个regionserver服务了
加上选项 -fixAssignments 解决,undeploy这个region
-
如果一个region在META表中有记录,在hdfs上面也有,table不是disabled的,但是这个region被多个regionserver服务了
加上选项 -fixAssignments 解决,通知所有regionserver close region,然后assign region
-
如果一个region在META表中,在hdfs上面也有,也应该被服务,但是META表中记录的regionserver和实际所在的regionserver不相符
加上选项 -fixAssignments 解决
-
region holes 需要加上 -fixHdfsHoles ,创建一个新的空region,填补空洞,但是不assign 这个 region,也不在META表中
加这个region的相关信息
-
region在hdfs上面没有.regioninfo文件
-fixHdfsOrphans 解决
-
region overlaps
需要加上 -fixHdfsOverlaps
说明:
- 修复region holes时,-fixHdfsHoles 选项只是创建了一个新的空region,填补上了这个区间,还需要加上-fixAssignments -fixMeta 来解决问题,( -fixAssignments 用于assign region),( -fixMeta用于在META表中添加region的记录),所以有了组合拳 -repairHoles 修复region holes,相当于-fixAssignments -fixMeta -fixHdfsHoles -fixHdfsOrphans
- -fixAssignments,用于修复region没有assign、不应该assign、assign了多次的问题
- -fixMeta,如果hdfs上面没有,那么从META表中删除相应的记录,如果hdfs上面有,在META表中添加上相应的记录信息
- -repair 打开所有的修复选项,相当于-fixAssignments -fixMeta -fixHdfsHoles -fixHdfsOrphans -fixHdfsOverlaps -fixVersionFile -sidelineBigOverlaps
注意:
一般fix命令执行的时间与你的集群存储大小和region个数相关,请耐心等待。不要kill掉正在执行的fix命令,以免已发其他问题。
在生产环境中,应当经常运行hbck,以便及早发现不一致问题并更容易地解决问题。
Hbase 还提供了Hbck2工具 https://github.com/apache/hbase-operator-tools/tree/master/hbase-hbck2
$ hbase hbck -j /path/to/HBCK2.jar
参考:
https://blog.csdn.net/liliwei0213/article/details/53639275
https://li*tu.github.io/2019/06/17/HBase-HBCK/