Shark是构建在Spark和Hive基础之上的数据仓库。 目前,Shark已经完成学术使命,终止开发,但其架构和原理仍具有借鉴意义。 它提供了能够查询Hive中所存储数据的一套SQL接口,兼容现有的Hive QL语法。 这样,熟悉Hive QL或者SQL的用户可以基于Shark进行快速的Ad-Hoc、 Reporting等类型的SQL查询。 Shark底层复用Hive的解析器、 优化器以及元数据存储和序列化接口。 Shark会将Hive QL编译转化为一组Spark任务,进行分布式运算。
相关文章
- 01-31Apache Hivemall:可运行在Apache Hive, Spark 和 Pig 上的可扩展
- 01-31Apache Spark的部署环境的小记
- 01-31Spark SQL概念学习系列之Spark SQL的简介(一)
- 01-31如何基于Apache Pulsar和Spark进行批流一体的弹性数据处理?
- 01-31Apache Spark:来自Facebook的60 TB +生产用例
- 01-31重磅 | Apache Spark 社区期待的 Delta Lake 开源了
- 01-31深入理解 Apache Spark Delta Lake 的事务日志
- 01-31BigData之Storm:Apache Storm的简介、深入理解、下载、案例应用之详细攻略
- 01-31Apache Spark Shark的简介
- 01-31基于Spark的电影推荐系统(实战简介)