sparksql优化记录坑

2024-03-30 22:49:45

生产sparksql。对于时序性数据，执行速度很慢，定位思路： sparksql配置---------》各个执行时间段消耗明细----------》差异

spark.read.parquet(hdfsPath: _*).createOrReplaceTempView(modelCode)

下楼.filter(_.length > 0)  _.length action   导致读取hdfs执行很多次

spark.read.parquet(hdfsPath: _*).filter(_.length > 0).createOrReplaceTempView(modelCode)

码农公寓