Spark SQL提供在大数据上的SQL查询功能,类似于Shark在整个生态系统的角色,它们可以统称为SQL on Spark。 之前,Shark的查询编译和优化器依赖于Hive,使得Shark不得不维护一套Hive分支,而Spark SQL使用Catalyst做查询解析和优化器,并在底层使用Spark作为执行引擎实现SQL的Operator。 用户可以在Spark上直接书写SQL,相当于为Spark扩充了一套SQL算子,这无疑更加丰富了Spark的算子和功能,同时Spark SQL不断兼容不同的持久化存储(如HDFS、 Hive等),为其发展奠定广阔的空间。
相关文章
- 03-02Spark SQL概念学习系列之Spark SQL的简介(一)
- 03-02一个spark SQL和DataFrames的故事
- 03-02有时间了解一下Spark SQL parser的解析器架构
- 03-02一条Sql的Spark之旅
- 03-02spark之通过sparksql中的SQL语句实现电影点评系统用户行为分析
- 03-02Spark SQL Catalyst源码分析之Physical Plan 到 RDD的具体实现
- 03-02一条Sql的Spark之旅
- 03-02Spark SQL 编程API入门系列之Spark SQL支持的API
- 03-02Spark SQL 编程API入门系列之Spark SQL的作用与使用方式
- 03-02Spark RDD概念学习系列之Spark的算子的分类(十一)