06 Spark SQL 及其DataFrame的基本操作

1.Spark SQL出现的 原因是什么?

Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。简而言之,sparkSQL是Spark的前身,是在Hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。
sparkSQL提供了一个称为DataFrame(数据框)的编程抽象,DF的底层仍然是RDD,并且可以充当分布式SQL查询引擎。

2.用spark.read 创建DataFrame

06 Spark SQL 及其DataFrame的基本操作

3.观察从不同类型文件创建DataFrame有什么异同?

 

 txt文件:创建的DataFrame数据没有结构

 

json文件:创建的DataFrame数据有结构

 

4.观察Spark的DataFrame与Python pandas的DataFrame有什么异同?

 

 06 Spark SQL 及其DataFrame的基本操作

 

06 Spark SQL 及其DataFrame的基本操作

 

06 Spark SQL 及其DataFrame的基本操作

 

06 Spark SQL 及其DataFrame的基本操作

 

06 Spark SQL 及其DataFrame的基本操作

上一篇:06 Spark SQL 及其DataFrame的基本操作


下一篇:【完整版15章】SparkSQL极速入门 整合Kudu实现广告业务数据分析