06 Spark SQL 及其DataFrame的基本操作

1.Spark SQL出现的 原因是什么?

2.用spark.read 创建DataFrame

3.观察从不同类型文件创建DataFrame有什么异同?

4.观察Spark的DataFrame与Python pandas的DataFrame有什么异同?

 

Spark SQL DataFrame的基本操作

创建:

file='file:///usr/local/spark/examples/src/main/resources/people.txt'
data = spark.read.text(file)
file='file:///usr/local/spark/examples/src/main/resources/people.json'
datas = spark.read.json(file)

打印数据

data.show()
datas.show()

 

  06 Spark SQL 及其DataFrame的基本操作

 

 

 

打印概要

data.printSchema()
datas.printSchema()

  06 Spark SQL 及其DataFrame的基本操作

 

 

 

查询总行数

data.count()
datas.count()
data.head(3)
datas.head(3)

 

 

   06 Spark SQL 及其DataFrame的基本操作

 

 

输出全部行

data.collect()
datas.collect()

  06 Spark SQL 及其DataFrame的基本操作

 

 

查询概况

data.describe().show()

  06 Spark SQL 及其DataFrame的基本操作

 

 

取列

datas['name']
datas.select()
datas.select(datas['name'],datas['age']+1).show()
datas.filter(datas['age']>20).show()
datas.groupBy('age').count().show()
datas.sort(datas['age'].desc()).show()

  06 Spark SQL 及其DataFrame的基本操作

 

   06 Spark SQL 及其DataFrame的基本操作

 

上一篇:redis管道技术批量插入数据


下一篇:pyinstaller 如何解决打包过程中的依赖以及运行中找不到pymysql模块的问题。