HIVE架构
Hive组件
用户接口/界面
Hive是一个数据仓库基础工具软件,可以创建用户和HDFS之间互动。用户界面,Hive支持是Hive的Web UI,Hive命令行,HiveHD洞察(在Windows服务器),用户提交查询的地方。
Meta Store元数据存储
Hive选择各自的数据库服务器(一般是Mysql),用以储存表,数据库,列模式等元数据,在功能上Metastore分为两个部分:用户的请求服务和存储
存储部署的三种模式:
1.内嵌模式
内嵌模式是Hive Metastore的最简单的部署方式,使用Hive内嵌的Derby数据库来存储元数据。但是Derby只能接受一个Hive会话的访问,试图启动第二个Hive会话就会导致Metastore连接失败。
2.本地模式
本地模式是Metastore的默认模式(懒人专用模式)。该模式下,单Hive会话(一个Hive 服务JVM)以组件方式调用Metastore和Driver。我们可以采用MySQL作为Metastore的数据库。下面列出部署细节:
在hive-site.xml中设置MySQL的Connection URL、用户名和密码以及ConnectionDriverName;
将MySQL的JDBC驱动Jar文件放到Hive的lib目录下。
3.远程模式
远程模式将Metastore分离出来,成为一个独立的Hive服务(Metastore服务还可以部署多个)。这样的模式可以将数据库层完全置于防火墙后,客户就不再需要用户名和密码登录数据库,避免了认证信息的泄漏。
hive.metastore.local false为远程模式
hive.metastore.uris 远端模式下Metastore的URI列表。
HiveQL处理引擎
HiveQL类似于SQL的查询上Metastore模式信息。这是传统的方式进行MapReduce程序的替代品之一。相反,使用Java编写的MapReduce程序,可以编写为MapReduce工作,并处理它的查询。
执行引擎
HiveQL处理引擎和MapReduce的结合部分是由Hive执行引擎。执行引擎处理查询并产生结果和MapReduce的结果一样。它采用MapReduce方法。
HDFS 或 HBASE
Hadoop的分布式文件系统或者HBASE数据存储技术是用于将数据存储到文件系统。
Hive的查询过程
1 Execute Query
Hive接口,如命令行或Web UI发送查询驱动程序(任何数据库驱动程序,如JDBC,ODBC等)来执行。
2 Get Plan
在驱动程序帮助下查询编译器,分析查询检查语法和查询计划或查询的要求。
3 Get Metadata
编译器发送元数据请求到Metastore(任何数据库),获得查询语句对应的元数据信息。
4 Send Metadata
Metastore发送元数据,以编译器的响应。
5 Send Plan
编译器检查要求,并重新发送计划给驱动程序。到此为止,查询解析和编译完成。
6 Execute Plan
驱动程序发送的执行计划到执行引擎。
6.1 Execute Job
在内部,执行作业的过程是一个MapReduce工作。执行引擎发送作业给JobTracker,在名称节点并把它分配作业到TaskTracker,这是在数据节点。在这里,查询执行MapReduce工作。
6.2 Metadata Ops
与此同时,在执行时,执行引擎可以通过Metastore执行元数据操作。
8 Send Results
执行引擎发送这些结果值给驱动程序。
9 Fetch Result
执行引擎接收来自数据节点的结果。
10 Send Results
驱动程序将结果发送给Hive接口。