这次我们先来讨论hbase的重试机制,为什么呐,因为最近公司最近也在做这方面的优化,所以就今天研究的一些成功记录一下。
configuration.setInt("hbase.client.pause", 50);
configuration.setInt("hbase.client.retries.number", 5);
configuration.setInt("hbase.client.operation.timeout", 3000);
configuration.setInt("hbase.client.scanner.timeout.period", 3000);
configuration.setInt("hbase.rpc.timeout", 1000);
1、hbase.rpc.timeout
因为客户端和服务端是分离的,他们之间的服务调用就需要rpc,例如当我们使用put的时候,其实是在客户端封装了一个对象,这个对象包括参数、命令等一些参数,然后经过网络发送到服务端,服务端在将参数解析,然后执行相关命令,最后将结果返回客户端。整一个过程就是rpc调用。所以如果出现网路问题,或者服务器端正在进行gc,那么返回的数据出现延迟或者不返回,所以我们就需要在客户端设置一个超时参数,当超时了我们将放弃这次请求,并且抛出异常。这样我们上层应用在调用操作接口的时候就不会一直阻塞。但是并不是设置越小越好,这个还是需要根据自己的系统来设置一个比较合适的值。
2、hbase.client.pause hbase.client.retries.number hbase.client.operation.timeout
这三个参数都是一起用到的,hbase有个比较好的容错机制,其中一个体现就是当第一次超时的时候,会尝试再次连接hbase.client.retries.number 次,但是不是马上而是会先休眠 hbase.client.pause,当重试次数已经达到的时候或者达到hbase.client.operation.timeout(从开始到结束包括重试时间),就会抛出异常。
3、hbase.client.scanner.timeout.period
这个是单独对scan这个操作的,一个scan操作可能会有多次的rpc,以为scan并不是一次九江数据返回,而是通过设置参数maxResultSize,来确定一次rpc需要返回多少数据,1.1.1版本是2m,hbase.client.scanner.timeout.period这个是针对一次rpc操作时间。
好了,上面就是这次通过查资料和源码的一些自己的总结,欢迎一起来讨论。