Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为QL,它允许熟悉SQL的用户查询数据。作为一个数据仓库,Hive的数据管理按照使用层次可以从元数据存储、数据存储和数据交换三个方面来介绍。
(1)元数据存储
Hive将元数据存储在RDBMS中,有三种模式可以连接到数据库:
SingleUserMode:此模式连接到一个In-memory的数据库Derby,一般用于UnitTest。
MultiUserMode:通过网络连接到一个数据库中,这是最常用的模式。
RemoteServerMode:用于非Java客户端访问元数据库,在服务器端启动一个MetaStoreServer,客户端则利用Thrift协议通过MetaStoreServer来访问元数据库。
(2)数据存储
首先,Hive没有专门的数据存储格式,也没有为数据建立索引,用户可以非常*地组织Hive中的表,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,它就可以解析数据了。
其次,Hive中所有的数据都存储在HDFS中,Hive中包含4种数据模型:Table、ExternalTable、Partition、Bucket。
Hive中的Table和数据库中的Table在概念上是类似的,每一个Table在Hive中都有一个相应的目录来存储数据。例如,一个表pvs,它在HDFS中的路径为:/wh/pvs,其中,wh是在hive-site.xml中由${hive.metastore.warehouse.dir}指定的数据仓库的目录,所有的Table数据(不包括ExternalTable)都保存在这个目录中。
Partition对应于数据库中Partition列的密集索引,但是Hive中Partition的组织方式与数据库中的很不相同。在Hive中,表中的一个Partition对应于表下的一个目录,所有的Partition数据都存储在对应的目录中。例如:pvs表中包含ds和city两个Partition,则对应于ds=20090801,city=US的HDFS子目录为:/wh/pvs/ds=20090801/city=US;对应于ds=20090801,city=CA的HDFS子目录为:/wh/pvs/ds=20090801/city=CA。
Buckets对指定列计算hash,根据hash值切分数据,目的是为了便于并行,每一个Buckets对应一个文件。将user列分散至32个Bucket上,首先对user列的值计算hash,比如,对应hash值为0的HDFS目录为:/wh/pvs/ds=20090801/city=US/part-00000;对应hash值为20的HDFS目录为:/wh/pvs/ds=20090801/city=US/part-00020。
ExternalTable指向已经在HDFS中存在的数据,可以创建Partition。它和Table在元数据的组织结构上是相同的,而在实际数据的存储上则有较大的差异。
在Table的创建过程和数据加载过程(这两个过程可以在同一个语句中完成)中,实际数据会被移动到数据仓库目录中。之后对数据的访问将会直接在数据仓库的目录中完成。删除表时,表中的数据和元数据将会被同时删除。
ExternalTable只有一个过程,因为加载数据和创建表是同时完成的。实际数据是存储在Location后面指定的HDFS路径中的,它并不会移动到数据仓库目录中。
(3)数据交换
数据交换主要分为以下几个部分(如图1-5所示):
用户接口:包括客户端、Web界面和数据库接口。
元数据存储:通常是存储在关系数据库中的,如MySQL、Derby等。
解释器、编译器、优化器、执行器。
Hadoop:用HDFS进行存储,利用MapReduce进行计算。
用户接口主要有三个:客户端、数据库接口和Web界面,其中最常用的是客户端。Client是Hive的客户端,当启动Client模式时,用户会想要连接HiveServer,这时需要指出HiveServer所在的节点,并且在该节点启动HiveServer。Web界面是通过浏览器访问Hive的。
Hive将元数据存储在数据库中,如MySQL、Derby中。Hive中的元数据包括表的名字、表的列和分区及其属性、表的属性(是否为外部表等)、表数据所在的目录等。
解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化到查询计划的生成。生成的查询计划存储在HDFS中,并在随后由MapReduce调用执行。
Hive的数据存储在HDFS中,大部分的查询由MapReduce完成(包含*的查询不会生成MapRedcue任务,比如select*fromtbl)。
以上从Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive入手介绍了Hadoop的数据管理,它们都通过自己的数据定义、体系结构实现了数据从宏观到微观的立体化管理,完成了Hadoop平台上大规模的数据存储和任务处理。