Apache Spark Shark的简介

2024-01-31 16:02:10

　　Shark是构建在Spark和Hive基础之上的数据仓库。目前，Shark已经完成学术使命，终止开发，但其架构和原理仍具有借鉴意义。它提供了能够查询Hive中所存储数据的一套SQL接口，兼容现有的Hive QL语法。这样，熟悉Hive QL或者SQL的用户可以基于Shark进行快速的Ad-Hoc、 Reporting等类型的SQL查询。 Shark底层复用Hive的解析器、优化器以及元数据存储和序列化接口。 Shark会将Hive QL编译转化为一组Spark任务，进行分布式运算。