生产sparksql。对于时序性数据,执行速度很慢,定位思路: sparksql配置---------》各个执行时间段消耗明细----------》差异
spark.read.parquet(hdfsPath: _*).createOrReplaceTempView(modelCode)
下楼.filter(_.length > 0) _.length action 导致读取hdfs执行很多次
spark.read.parquet(hdfsPath: _*).filter(_.length > 0).createOrReplaceTempView(modelCode)