06 Spark SQL 及其DataFrame的基本操作

1.Spark SQL出现的 原因是什么?

2.用spark.read 创建DataFrame

3.观察从不同类型文件创建DataFrame有什么异同?

4.观察Spark的DataFrame与Python pandas的DataFrame有什么异同?

 

Spark SQL DataFrame的基本操作

创建:

file=‘file:///usr/local/spark/examples/src/main/resources/people.txt‘
data = spark.read.text(file)
file=‘file:///usr/local/spark/examples/src/main/resources/people.json‘
datas = spark.read.json(file)

打印数据

data.show()
datas.show()

 

  06 Spark SQL 及其DataFrame的基本操作

 

 

 

打印概要

data.printSchema()
datas.printSchema()

  06 Spark SQL 及其DataFrame的基本操作

 

 

 

查询总行数

data.count()
datas.count()
data.head(3)
datas.head(3)

 

 

   06 Spark SQL 及其DataFrame的基本操作

 

 

输出全部行

data.collect()
datas.collect()

  06 Spark SQL 及其DataFrame的基本操作

 

 

查询概况

data.describe().show()

  06 Spark SQL 及其DataFrame的基本操作

 

 

取列

datas[‘name‘]
datas.select()
datas.select(datas[‘name‘],datas[‘age‘]+1).show()
datas.filter(datas[‘age‘]>20).show()
datas.groupBy(‘age‘).count().show()
datas.sort(datas[‘age‘].desc()).show()

  06 Spark SQL 及其DataFrame的基本操作

 

   06 Spark SQL 及其DataFrame的基本操作

 

06 Spark SQL 及其DataFrame的基本操作

上一篇:06 Spark SQL 及其DataFrame的基本操作


下一篇:MSSQL BULK INSERT 插入文本内容到数据库