hbase的交互式命令行是通过jruby实现的,当我们输入hbase shell时,实际上最终执行的是org.jruby.Main,并以bin/hirb.rb作为参数,注意是根目录下bin目录中的hirb.rb,而不是hbase-shell中的irb/hirb.rb;
这个类来自jruby的包,作用是把ruby编写的代码转换成java字节码,进而能够运行在JVM中;
实现逻辑大体可分为2个阶段:初始化阶段和命令执行阶段,前者是启动shell时的执行逻辑,后者是输入命令后的执行逻辑,以下分别简述其流程;
初始化阶段
1、创建HBaseConfiguration实例,并将启动时带的键值对参数设置进去;
2、创建Hbase实例,初始化connection,代码在hbase.rb中;
3、创建Shell实例,此时会执行一些load_command_group方法,这些方法实际上是初始化了commands和command_groups这2个map变量,commands中存放了各个命令的name与class的映射关系,代码在shell.rb中;
4、接下来执行Shell实例的export_commands方法,通过instance_eval为commands中的所有命令动态添加一个方法到Shell实例中;
命令执行阶段(以list命令为例)
1、执行前述动态生成的list方法;
2、执行Shell实例的command方法,参数为list;
3、执行internal_command,该方法内部先调用command_instance按一定规则创建该命令对应class的实例:List,所有命令的class都会继承Command类;
4、执行List的command_safe方法,这个方法在Command类中,该方法内部通过调用send(cmd, *args)来执行List的command方法,List类定义在list.rb中,Command类定义在commands.rb中;
5、List的command方法先后调用了Command、Shell、Hbase等类中的admin方法,最后得到一个Admin实例,该类定义在admin.rb中;
6、执行Admin实例的list方法,该方法内部实际上执行了HBaseAdmin的listTableNames来得到结果;
如何调试
如果希望在本地环境启动hbase shell,可参考如下配置;
//Main class
org.jruby.Main
//VM Options
-Dhbase.ruby.sources=E:\github\hbase\hbase-shell\src\main\ruby
//Program argument
E:\github\hbase\bin\hirb.rb
//Use classpath of module
hbase-shell
默认情况下连的是localhost的hbase,如果希望连远程集群,可以修改hbase-shell模块中hbase.rb的configuration,指定hbase.zookeeper.quorum参数即可;
修改示例
以deleteall命令为例,先查看下它的帮助, 执行help 'deleteall',会打印如下说明信息:
Delete all cells in a given row; pass a table name, row, and optionally
a column and timestamp. Deleteall also support deleting a row range using a
row key prefix. Examples:
hbase> deleteall 'ns1:t1', 'r1'
hbase> deleteall 't1', 'r1'
hbase> deleteall 't1', 'r1', 'c1'
hbase> deleteall 't1', 'r1', 'c1', ts1
hbase> deleteall 't1', 'r1', 'c1', ts1, {VISIBILITY=>'PRIVATE|SECRET'}
可以看到,如果想删除某一行中所有小于指定时间戳的数据,是不支持的,这是因为参数是按照位置读取的,如果把时间戳放到行键后面,会被当做列信息从而报错,但通过api是可以的,这里我们通过用空字符串占位的方式去解决,即用如下命令:
deleteall 't1', 'r1', '', ts1
要支持这个命令,只需要在使用列信息的地方加上空字符串判断就行了,根据前述命令执行流程的说明,可以知道deleteall命令的代码是在deleteall.rb中,并且最终是在table.rb的_createdelete_internal方法中使用到列信息进行Delete对象的创建,代码如下:
if column && all_version
family, qualifier = parse_column_name(column)
d.addColumns(family, qualifier, timestamp)
elsif column && !all_version
family, qualifier = parse_column_name(column)
d.addColumn(family, qualifier, timestamp)
end
因此只需要给这部分外层加上判断即可,修改如下:
if column != ""
if column && all_version
family, qualifier = parse_column_name(column)
d.addColumns(family, qualifier, timestamp)
elsif column && !all_version
family, qualifier = parse_column_name(column)
d.addColumn(family, qualifier, timestamp)
end
end
有兴趣的话可以本地修改下试试效果,加深对hbase命令行实现原理的理解,另外这个小优化也已经提交给社区:HBASE-24335;