HIVE 工作原理

HIVE架构

Hive组件

 HIVE 工作原理

 

 

用户接口/界面    

Hive是一个数据仓库基础工具软件,可以创建用户和HDFS之间互动。用户界面,Hive支持是Hive的Web UI,Hive命令行,HiveHD洞察(在Windows服务器),用户提交查询的地方。

 

Meta Store元数据存储    

Hive选择各自的数据库服务器(一般是Mysql),用以储存表,数据库,列模式等元数据,在功能上Metastore分为两个部分:用户的请求服务和存储

存储部署的三种模式:

1.内嵌模式

内嵌模式是Hive Metastore的最简单的部署方式,使用Hive内嵌的Derby数据库来存储元数据。但是Derby只能接受一个Hive会话的访问,试图启动第二个Hive会话就会导致Metastore连接失败。

2.本地模式

本地模式是Metastore的默认模式(懒人专用模式)。该模式下,单Hive会话(一个Hive 服务JVM)以组件方式调用Metastore和Driver。我们可以采用MySQL作为Metastore的数据库。下面列出部署细节:

在hive-site.xml中设置MySQL的Connection URL、用户名和密码以及ConnectionDriverName;

将MySQL的JDBC驱动Jar文件放到Hive的lib目录下。

3.远程模式

远程模式将Metastore分离出来,成为一个独立的Hive服务(Metastore服务还可以部署多个)。这样的模式可以将数据库层完全置于防火墙后,客户就不再需要用户名和密码登录数据库,避免了认证信息的泄漏。

hive.metastore.local false为远程模式

hive.metastore.uris 远端模式下Metastore的URI列表。

 

HiveQL处理引擎

HiveQL类似于SQL的查询上Metastore模式信息。这是传统的方式进行MapReduce程序的替代品之一。相反,使用Java编写的MapReduce程序,可以编写为MapReduce工作,并处理它的查询。

 

执行引擎      

HiveQL处理引擎和MapReduce的结合部分是由Hive执行引擎。执行引擎处理查询并产生结果和MapReduce的结果一样。它采用MapReduce方法。

HDFS 或 HBASE

Hadoop的分布式文件系统或者HBASE数据存储技术是用于将数据存储到文件系统。

 

Hive的查询过程

 HIVE 工作原理

 

 

1     Execute Query

Hive接口,如命令行或Web UI发送查询驱动程序(任何数据库驱动程序,如JDBC,ODBC等)来执行。

2     Get Plan

在驱动程序帮助下查询编译器,分析查询检查语法和查询计划或查询的要求。

3     Get Metadata

编译器发送元数据请求到Metastore(任何数据库),获得查询语句对应的元数据信息。

4     Send Metadata

Metastore发送元数据,以编译器的响应。

5     Send Plan

编译器检查要求,并重新发送计划给驱动程序。到此为止,查询解析和编译完成。

6     Execute Plan

驱动程序发送的执行计划到执行引擎。

6.1  Execute Job

在内部,执行作业的过程是一个MapReduce工作。执行引擎发送作业给JobTracker,在名称节点并把它分配作业到TaskTracker,这是在数据节点。在这里,查询执行MapReduce工作。

6.2  Metadata Ops

与此同时,在执行时,执行引擎可以通过Metastore执行元数据操作。

8     Send Results

执行引擎发送这些结果值给驱动程序。

9     Fetch Result

执行引擎接收来自数据节点的结果。

10   Send Results

驱动程序将结果发送给Hive接口。

 

上一篇:python-机械化提交


下一篇:在测试时使用反射破坏封装有多邪恶?