sparksql优化记录 坑

生产sparksql。对于时序性数据,执行速度很慢,定位思路: sparksql配置---------》各个执行时间段消耗明细----------》差异

 

spark.read.parquet(hdfsPath: _*).createOrReplaceTempView(modelCode)

下楼.filter(_.length > 0) _.length action 导致读取hdfs执行很多次
spark.read.parquet(hdfsPath: _*).filter(_.length > 0).createOrReplaceTempView(modelCode)
上一篇:【完整版15章】SparkSQL极速入门 整合Kudu实现广告业务数据分析


下一篇:06 Spark SQL 及其DataFrame的基本操作