HadoopDB：混合分布式系统

2023-11-14 12:54:46

HadoopDB 是一个 Mapreduce 和传统关系型数据库的结合方案，以充分利用 RDBMS 的性能和 Hadoop 的容错、分布特性。2009 年被 Yale 大学教授 Abadi 提出，继而商业化为 Hadapt，据称从 VC 那儿拉到了 10M 刀投资。

本文是对 HadoopDB 论文的总结。其中不免掺杂些自己的不成熟想法，更详细的内容，还请参见原论文 HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads

背景

满足 1,4：利用分表的方式，扩散到多个节点。一般情况下节点最多为几十个，原因：1.每增加一个节点，失败率增加；2.并行数据库假设各个机器都是同质化的，但这往往不太可能

满足 2,3,4：Map - repartition - Reduce 原为非结构化数据，但也可以适用结构化数据。

融合了之前两者，做出系统层面的改进，而不仅仅是语言和接口层面。

这三个解决方案对 4 个指标的关系如下图：

如图

作用

将 HiveQL 转化为特定执行计划，在 hadoopDB 中执行。原则是尽可能的讲操作推向节点上的 RDBMS 上执行，以此提高执行效率。
实现

扩展 Hive： 1.执行查找前，用 catolog 的信息更新 Hive 的 metastore，定向到节点数据库的表 2.执行前，决定划分的键；将部分查询语句推到节点的数据库中执行。

示例参见下文的 slides

对 hadoopDB 的一些看法：

其数据预处理代价过高：数据需要进行两次分解和一次数据库加载操作后才能使用；
将查询推向数据库层只是少数情况，大多数情况下，查询仍由Ｈive 完成．因为数据仓库查询往往涉及多表连接，由于连接的复杂性，难以做到在保持连接数据局部性的前提下将参与连接的多张表按照某种模式划分；
维护代价过高．不仅要维护Ｈadoop 系统，还要维护每个数据库节点；
目前尚不支持数据的动态划分，需要手工一次划分好