Spark SQL

val sparkSession = SparkSession.builder.
      master("local")
      .appName("spark session example")
      .enableHiveSupport()
      .getOrCreate()

DataFrame 是Spark SQL提供的一种特殊的RDD
dataframe 能够更方便的操作数据集,而且因为其底层是通过 spark sql 的 Catalyst优化器生成优化后的执行代码,所以其执行速度会更快。总结下来就是,使用 spark dataframe 来构建 spark app,能:
write less : 写更少的代码
do more : 做更多的事情
faster : 以更快的速度

Spark SQL
dataframe = spark.read.format(“csv”).option(“header”,“true”).csv('train.csv’)

上一篇:dataframe插入特定行


下一篇:Python处理Excel求取某列固定间隔数的平均值