HBase-0.90.4集群安装配置

HBase是Hadoop数据库,能够实现随机、实时读写你的Big Data,它是Google的Bigtable的开源实现,可以参考Bigtable的论文Bigtable: A Distributed Storage System for Structured。HBase的存储模型可以如下三个词来概括:distributed, versioned, column-oriented。HBase并非只能在HDFS文件系统上使用, 你可以应用在你的本地文件系统上部署HBase实例来存储数据。

准备工作

下面介绍Standalone和Distributed安装过程。

Standalone模式

这种安装模式,是在你的本地文件系统上安装配置一个HBase实例,安装配置比较简单。
首先,要保证你的本地系统能够通过ssh无密码访问,配置如下:

1 ssh-keygen -t dsa
2 cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

检查一下权限:你的~/.ssh目录的权限是否为755,~/.ssh/authorized_keys的权限是否为644,如果不是,执行下面的命令行:

1 chmod 755 ~/.ssh
2 chmod 644 ~/.ssh/authorized_keys

然后,安装配置HBase,过程如下:

1 cd /home/shirdrn/hadoop
2 tar -xvzf hbase-0.90.4.tar.gz
3 cd hbase-0.90.4

修改conf/hbase-env.sh中JAVA_HOME配置,指定为你的JAVA_HOME目录:

1 export JAVA_HOME=/usr/java/jdk1.6.0_16

其他配置,如HBASE*指定配置项,如果需要可以进行配置。
修改hbase-site.xml中配置,示例如下:

1 <?xml version="1.0"?>
2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
3
4 <configuration>
5 <property>
6 <name>hbase.rootdir</name>
7 <value>file:///home/shirdrn/hadoop/hbase-0.90.4/data</value>
8 </property>
9 </configuration>

指定HBase的数据存储目录,使用的是本地文件系统的目录。
接着,就可以启动HBase实例,提供本地存储服务:

1 bin/start-hbase.sh

启动完成以后,你可以跟踪一下HBase日志,看看是否启动成功了:

1 tail -500f logs/hbase-shirdrn-master-localhost.log

或者查看一下HMaster进程是否存在:

1 ps -ef | grep HMaster

通过日志可以看出,HBase实例启动了所有的HBase和Zookeeper守护进程,并且这些进程都是在同一个JVM中。下面,可以启动HBase shell,来简单测试HBase的数据存储的基本命令:

01 cd bin
02 hbase shell
03 hbase(main):001:0> help
04 hbase(main):002:0> status
05 hbase(main):003:0> version
06 // 创建表'pagedb',列簇(Column Family)为metadata、text、status
07 hbase(main):004:0> create 'pagedb', 'metadata', 'text', 'status'
08 // 插入数据
09 hbase(main):005:0> put 'pagedb', 'http://www.mafengwo.cn/i/764197.html','metadata:site', 'www.mafengwo.cn'
10 hbase(main):006:0> put 'pagedb', 'http://www.mafengwo.cn/i/764197.html','metadata:pubdate', '2011-12-20 22:09'
11 hbase(main):007:0> put 'pagedb', 'http://www.mafengwo.cn/i/764197.html', 'text:title','南国之境'
12 hbase(main):008:0> put 'pagedb', 'http://www.mafengwo.cn/i/764197.html','text:content', '如果海會說话, 如果風愛上砂 我會聆聽浪花,...'
13 hbase(main):009:0> put 'pagedb', 'http://www.mafengwo.cn/i/764197.html','status:extracted', '0'
14 hbase(main):010:0> put 'pagedb', 'http://www.mafengwo.cn/i/764197.html','status:httpcode', '200'
15 hbase(main):011:0> put 'pagedb', 'http://www.mafengwo.cn/i/764197.html','status:indexed', '1'
16 // 扫描表'pagedb'
17 hbase(main):012:0> scan 'pagedb'
18 // 获取记录'http://www.mafengwo.cn/i/764197.html'的所有列的数据
19 hbase(main):013:0> get 'pagedb', 'http://www.mafengwo.cn/i/764197.html'
20 // 获取记录'http://www.mafengwo.cn/i/764197.html'的metadata列簇数据
21 hbase(main):014:0> get 'pagedb', 'http://www.mafengwo.cn/i/764197.html', 'metadata'
22 // 获取记录'http://www.mafengwo.cn/i/764197.html'的列metadata:site数据
23 hbase(main):015:0> get 'pagedb', 'http://www.mafengwo.cn/i/764197.html','metadata:site'
24 // 增加一个列status:state,并指定值为4
25 hbase(main):016:0> incr 'pagedb', 'http://www.mafengwo.cn/i/764197.html','status:state', 4
26 // 修改status:httpcode的值为500
27 hbase(main):017:0> put 'pagedb', 'http://www.mafengwo.cn/i/764197.html','status:httpcode', '500'
28 // 统计表'pagedb'中的记录行数
29 hbase(main):018:0> count 'pagedb'
30 // disable表'pagedb'
31 hbase(main):019:0> disable 'pagedb'
32 // enable表pagedb
33 hbase(main):020:0> enable 'pagedb'
34 // 清空表'pagedb'
35 hbase(main):021:0> truncate 'pagedb'
36 // 列出所有表
37 hbase(main):022:0> list
38 // 删除'http://www.mafengwo.cn/i/764197.html'数据行
39 hbase(main):023:0> deleteall 'pagedb','http://www.mafengwo.cn/i/764197.html'
40 // 删除表'pagedb',删除之前必须先disable表
41 hbase(main):024:0> drop 'pagedb'

如果想练习使用其他更多命令,可以通过help查看其他命令。

Distributed模式

基于分布式模式安装HBase,首先它是在安装在HDFS集群之上,所以,首先要做的就是能够正确配置分布式模式的HDFS集群:保证Nanemode和Datanode进程都正确启动。HBase是一个分布式NoSQL数据库,建立于HDFS之上,并且对于集群模式的HBase需要对各个结点之间的数据进行协调(Coordination),所以HBase直接将ZooKeeper作为一个分布式协调系统来实现HBase数据复制(Replication)存储。有关ZooKeeper的介绍可以参考官方文档:http://zookeeper.apache.org。
HBase的基于主从架构模式:HBase集群中存在一个Hbase Master Server,类似于HDFS中的Namenode的角色;而作为从结点的Region Server,类似于HDFS中的Datanode。
对于HBase分布式模式的安装,又基于Zookeeper的是否被HBase管理,分为两种模式:

  • 基于HBase管理的Zookeeper集群,启动和关闭HBase集群,同时也控制Zookeeper集群
  • 外部Zookeeper集群:一个完全独立于HBase的ZooKeeper集群,不受HBase管理控制(启动与停止ZooKeeper集群)

下面,我们基于一个单独安装的ZooKeeper集群,不基于HBase管理,进行安装。根据官网文档,很容易就能安装配置好,并尝试使用。
1、安装配置HDFS集群
启动HDFS集群实例,一台master作为Namenode结点,其余3台slaves作为Datanode结点。
其中,master服务端口为9000。
2、创建HBase存储目录

1 #创建目录hdfs://master:9000/hbase
2 hadoop fs -mkdir /hbase
3 #验证/hbase目录创建成功
4 hadoop fs -lsr /

3、配置HBase
(1)解压缩HBase软件包,修改系统环境变量,在~/.bashrc中最后面加入如下配置:

1 export JAVA_HOME=/home/hadoop/installation/jdk1.6.0_30
2 export HADOOP_HOME=/home/hadoop/installation/hadoop-0.22.0
3 export HBASE_HEAPSIZE=128
4 export HBASE_MANAGES_ZK=false

使配置生效:

1 . ~/.bashrc

2)修改hbase-0.90.4/conf/hbase-env.sh脚本内容:
首先要重命名hbase-0.90.4目录下的一个目录:

1 hadoop@master:~/installation/hbase-0.90.4$ mv hbase-webapps/ webapps

默认会查找webapps目录。然后修改脚本,内容如下:

1 export JAVA_HOME=/home/hadoop/installation/jdk1.6.0_30
2 export HADOOP_HOME=/home/hadoop/installation/hadoop-0.22.0
3 export HBASE_HEAPSIZE=128
4 export HBASE_MANAGES_ZK=false
5 export HBASE_CLASSPATH=$HBASE_HOME/

最后一个表示使用外部Zookeeper集群,而不让HBase集群去管理。
(3)修改conf/hbase-site.xml文件内容,如下所示:

01 <?xml version="1.0"?>
02 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
03
04 <configuration>
05 <property>
06 <name>hbase.rootdir</name>
07 <value>hdfs://master:9000/hbase</value>
08 <description>The directory shared by RegionServers.</description>
09 </property>
10 <property>
11 <name>hbase.cluster.distributed</name>
12 <value>true</value>
13 <description>The mode the cluster will be in. Possible values are false: standalone and pseudo-distributed setups with managed Zookeeper true: fully-distributed with unmanaged Zookeeper Quorum (see hbase-env.sh)</description>
14 </property>
15 <property>
16 <name>hbase.zookeeper.property.dataDir</name>
17 <value>/home/hadoop/storage/zookeeper</value>
18 <description>Property from ZooKeeper's config zoo.cfg. The directory where the snapshot is stored.</description>
19 </property>
20 <property>
21 <name>hbase.zookeeper.quorum</name>
22 <value>slave-01,slave-02,slave-03</value>
23 <description>The directory shared by RegionServers.</description>
24 </property>
25 </configuration>

上面配置中:
hbase.rootdir 指定了HBase存储的根目录是在HDFS的hdfs://master:9000/hbase目录下,该目录要被HBase集群中Region Server共享。不要忘记了,在启动HBase集群之前,在HDFS集群中创建/hbase目录,在master上执行命令hadoop fs -mkdir /hbase即可。

  • hbase.cluster.distributed 指定了我们使用完全分布的模式进行安装
  • hbase.zookeeper.property.dataDir 指定了HBase集群使用的ZooKeeper集群的存储目录
  • hbase.zookeeper.quorum指定了用于协调HBase集群的ZooKeeper集群结点,必须配置奇数个结点,否则HBase集群启动会失败

所以,在启动HBase集群之前,首先要保证ZooKeeper集群已经成功启动。
(4)接下来,检查HBase的lib中的Hadoop的版本是否之前我们启动的HDFS集群使用的版本一致:

1 rm ~/installation/hbase-0.90.4/lib/hadoop-core-0.20-append-r1056497.jar
2 cp ~/installation/hadoop-0.22.0/*.jar ~/installation/hbase-0.90.4/lib/

我直接将HBase解压缩包中的hadoop的jar文件删除,用当前使用版本的Hadoop的jar文件。这一步很重要,如果不细看官方文档,你可能会感觉很怪异,实际HBase软件包中lib下的Hadoop的版本默认是0.20的,如果你启动的HDFS使用的是0.22,则HBase启动会报版本不一致的错误。
(5)修改conf/regionservers文件,配置HBase集群中的从结点Region Server,如下所示:

1 slave-01
2 slave-02
3 slave-03

一行一个主机字符串,上面使用是从结点主机的域名。上面配置,与HDFS的从结点的配置非常类似。
(6)经过上面几个骤,基本已经在一台机器上(master)配置好HBase了,这时,需要将上述的全部环境变量配置,也在各个从结点上进行配置,然后将配置好的HBase安装文件拷贝分发到各个从结点上:

1 scp -r ~/installation/hbase-0.90.4 hadoop@slave-01:/home/hadoop/installation
2 scp -r ~/installation/hbase-0.90.4 hadoop@slave-02:/home/hadoop/installation
3 scp -r ~/installation/hbase-0.90.4 hadoop@slave-03:/home/hadoop/installation

4、配置Zookeeper集群
具体安装、配置和启动,详见文章 http://blog.csdn.net/shirdrn/article/details/7183503 的说明。
在开始启动HBase集群之前,要先启动Zookeeper集群,保证其运行正常。
5、启动HBase集群
启动HBase集群了,执行如下脚本:

1 ./start-hbase.sh

你可以使用jps查看一下,当前master上启动的全部进程,如下所示:

1 hadoop@master:~/installation/hbase-0.90.4$ jps
2 15899 SecondaryNameNode
3 15553 NameNode
4 21677 Jps
5 21537 HMaster

其中,HMaster进程就是HBase集群的主结点服务进程。
slaves结点上启动的进程,以slave-03为例:

1 hadoop@slave-03:~/installation/hbase-0.90.4$ jps
2 6919 HRegionServer
3 4212 QuorumPeerMain
4 7053 Jps
5 3483 DataNode

上面,HReginServer是HBase集群的从结点服务进程,QuorumPeerMain是ZooKeeper集群的结点服务进程。
或者,查看日志,是否出现启动异常:

1 master上 : tail -500f $HBASE_HOME/logs/hbase-hadoop-master-master.log
2 slave-01上: tail -500f $HBASE_HOME/logs/hbase-hadoop-zookeeper-slave-01.log
3 slave-02上: tail -500f $HBASE_HOME/logs/hbase-hadoop-zookeeper-slave-02.log
4 slave-03上: tail -500f $HBASE_HOME/logs/hbase-hadoop-zookeeper-slave-03.log

6、验证HBase安装
启动HBase shell,如果能够显示如下信息则说明HBase集群启动成功:

01 hadoop@master:~/installation/hbase-0.90.4$ hbase shell
02 12/01/09 01:14:09 WARN conf.Configuration: hadoop.native.lib is deprecated. Instead, use io.native.lib.available
03 12/01/09 01:14:09 WARN conf.Configuration: hadoop.native.lib is deprecated. Instead, use io.native.lib.available
04 12/01/09 01:14:09 WARN conf.Configuration: hadoop.native.lib is deprecated. Instead, use io.native.lib.available
05 HBase Shell; enter 'help<RETURN>' for list of supported commands.
06 Type "exit<RETURN>" to leave the HBase Shell
07 Version 0.90.4, r1150278, Sun Jul 24 15:53:29 PDT 2011
08
09
10 hbase(main):001:0> help
11 HBase Shell, version 0.90.4, r1150278, Sun Jul 24 15:53:29 PDT 2011
12 Type 'help "COMMAND"', (e.g. 'help "get"' -- the quotes are necessary) for help on a specific command.
13 Commands are grouped. Type 'help "COMMAND_GROUP"', (e.g. 'help "general"') for help on a command group.
14
15
16 COMMAND GROUPS:
17 Group name: general
18 Commands: status, version
19
20
21 Group name: ddl
22 Commands: alter, create, describe, disable, drop, enable, exists, is_disabled, is_enabled, list
23
24
25 Group name: dml
26 Commands: count, delete, deleteall, get, get_counter, incr, put, scan, truncate
27
28
29 Group name: tools
30 Commands: assign, balance_switch, balancer, close_region, compact, flush, major_compact, move, split, unassign, zk_dump
31
32
33 Group name: replication
34 Commands: add_peer, disable_peer, enable_peer, remove_peer, start_replication, stop_replication
35
36
37 SHELL USAGE:
38 Quote all names in HBase Shell such as table and column names. Commas delimit
39 command parameters. Type <RETURN> after entering a command to run it.
40 Dictionaries of configuration used in the creation and alteration of tables are
41 Ruby Hashes. They look like this:
42
43
44 {'key1' => 'value1', 'key2' => 'value2', ...}
45
46
47 and are opened and closed with curley-braces. Key/values are delimited by the
48 '=>' character combination. Usually keys are predefined constants such as
49 NAME, VERSIONS, COMPRESSION, etc. Constants do not need to be quoted. Type
50 'Object.constants' to see a (messy) list of all constants in the environment.
51
52
53 If you are using binary keys or values and need to enter them in the shell, use
54 double-quote'd hexadecimal representation. For example:
55
56
57 hbase> get 't1', "key\x03\x3f\xcd"
58 hbase> get 't1', "key\003\023\011"
59 hbase> put 't1', "test\xef\xff", 'f1:', "\x01\x33\x40"
60
61
62 The HBase shell is the (J)Ruby IRB with the above HBase-specific commands added.
63 For more on the HBase Shell, see http://hbase.apache.org/docs/current/book.html
64 hbase(main):002:0> status
65 3 servers, 0 dead, 0.0000 average load
66
67
68 hbase(main):003:0> version
69 0.90.4, r1150278, Sun Jul 24 15:53:29 PDT 2011
70
71
72 hbase(main):004:0>

你可以按照前面使用本地文件系统安装过程中,使用的命令来进行相关的操作。

总结说明

1、出现版本不一致错误
如果启动时出现版本不一致的错误,如下所示:

01 2012-01-06 21:27:18,384 FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.
02 org.apache.hadoop.ipc.RemoteException: Server IPC version 5 cannot communicate with client version 3
03 at org.apache.hadoop.ipc.Client.call(Client.java:740)
04 at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:220)
05 at $Proxy5.getProtocolVersion(Unknown Source)
06 at org.apache.hadoop.ipc.RPC.getProxy(RPC.java:359)
07 at org.apache.hadoop.hdfs.DFSClient.createRPCNamenode(DFSClient.java:113)
08 at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:215)
09 at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:177)
10 at org.apache.hadoop.hdfs.DistributedFileSystem.initialize(DistributedFileSystem.java:82)
11 at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1378)
12 at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:66)
13 at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:1390)
14 at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:196)
15 at org.apache.hadoop.fs.Path.getFileSystem(Path.java:175)
16 at org.apache.hadoop.hbase.util.FSUtils.getRootDir(FSUtils.java:364)
17 at org.apache.hadoop.hbase.master.MasterFileSystem.<init>(MasterFileSystem.java:81)
18 at org.apache.hadoop.hbase.master.HMaster.finishInitialization(HMaster.java:346)
19 at org.apache.hadoop.hbase.master.HMaster.run(HMaster.java:282)
20 2012-01-02 21:27:18,384 INFO org.apache.hadoop.hbase.master.HMaster: Aborting

这就是说明Hadoop和HBase版本不匹配,仔细阅读文档,你会在http://hbase.apache.org/book.html#hadoop发现,解释如下所示:

1 Because HBase depends on Hadoop, it bundles an instance of the Hadoop jar under its lib directory. The bundled jar is ONLY
2
3 for use in standalone mode. In
4 distributed mode, it is critical that the version of Hadoop that is out on your cluster match what is under HBase. Replace the hadoop jar found in the HBase lib
5 directory with the hadoop jar you are running on your cluster to avoid version mismatch issues. Make sure you replace the jar in HBase everywhere on your cluster.
6 Hadoop version mismatch issues have various manifestations but often all looks like its hung up.

将HBase解压缩包中lib的Hadoop Core jar文件替换为当前你所使用的Hadoop版本即可。
2、HBase集群启动以后,执行相关操作时抛出异常
如果HBase集群正常启动,但是在想要创建一个table的时候,出现如下异常,如下所示:

01 ERROR: org.apache.hadoop.hbase.NotAllMetaRegionsOnlineException: org.apache.hadoop.hbase.NotAllMetaRegionsOnlineException: Timed out (10000ms)
02 at org.apache.hadoop.hbase.catalog.CatalogTracker.waitForMeta(CatalogTracker.java:334)
03 at org.apache.hadoop.hbase.master.HMaster.createTable(HMaster.java:769)
04 at org.apache.hadoop.hbase.master.HMaster.createTable(HMaster.java:743)
05 at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
06 at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
07 at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
08 at java.lang.reflect.Method.invoke(Method.java:597)
09 at org.apache.hadoop.hbase.ipc.HBaseRPC$Server.call(HBaseRPC.java:570)
10 at org.apache.hadoop.hbase.ipc.HBaseServer$Handler.run(HBaseServer.java:1039)

解决方法就是,修改/etc/hosts文件,修改内容以master为例,如下所示:

01 #127.0.0.1 localhost
02 192.168.0.180 master
03 192.168.0.191 slave-01
04 192.168.0.190 slave-02
05 192.168.0.189 slave-03
06 # The following lines are desirable for IPv6 capable hosts
07 #::1 ip6-localhost ip6-loopback
08 #fe00::0 ip6-localnet
09 #ff00::0 ip6-mcastprefix
10 #ff02::1 ip6-allnodes
11 #ff02::2 ip6-allrouters

然后,再进行相关操作就没有问题了。

上一篇:beamer 中使用 tikz 画图和动画


下一篇:运算符重载