Hive和SparkSQL：基于 Hadoop 的数据仓库工具

2022-03-17 00:27:11

Hive

Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 SQL 查询功能，将类 SQL 语句转换为 MapReduce 任务执行。

下面是直接存储在HDFS上的数据组织方式

用户可以指定Partition方式和Bucket方式，使得在执行过程中可以不用扫描某些分区。看上去Hive是先指定Partition方式，再在相同的Partition内部调用hash函数；GreenPlum是先指定Hash方式，在Hash分片内部，指定不同的分区方式。

由上图可知，hdfs和 mapreduce 是 hive 架构的根基。

执行流程详细解析

Step 1：UI(user interface) 调用 executeQuery 接口，发送 HQL 查询语句给 Driver

Step 2：Driver 为查询语句创建会话句柄，并将查询语句发送给 Compiler，等待其进行语句解析并生成执行计划

Step 3 and 4：Compiler 从 metastore 获取相关的元数据

Step 5：元数据用于对查询树中的表达式进行类型检查，以及基于查询谓词调整分区，生成计划

Step 6 (6.1，6.2，6.3)：由 Compiler 生成的执行计划是阶段性的 DAG，每个阶段都可能会涉及到 Map/Reduce job、元数据的操作、HDFS 文件的操作，Execution Engine 将各个阶段的 DAG 提交给对应的组件执行。

Step 7, 8 and 9：在每个任务（mapper / reducer）中，查询结果会以临时文件的方式存储在 HDFS 中。保存查询结果的临时文件由 Execution Engine 直接从 HDFS 读取，作为从 Driver Fetch API 的返回内容。

MapReduce：
1. Map任务结束后，要写磁盘
2. 一个MapReduce任务结束后，需要将中间结果持久化到HDFS
3. DAG生成MapReduce任务时，会产生无谓的Map任务
4. Hadoop在启动MapReduce任务要消耗5-10秒，需要多次启动MapReduce任务

SparkSQL在架构上和Hive类似，只是底层把MapReduce替换为Spark

除了替换底层执行引擎，SparkSQL还做了3个方面的优化

SparkSQL会根据数据的分布，统计分片大小，热点数据等等的数据直方图。根据数据直方图可以完成：

通过创建表的时候，指定数据的分布方式，类似于GreenPlum指定distribute。这样join的时候不用网络交换。