最近用到spark 接kafka数据落到kudu里,如果用默认spark 参数,会出现一些问题,下面是在生产上调优后的一些参数,供参考
//推测执行
spark.locality.wait=2s
spark.speculation=true
spark.speculation.interval=300s
spark.speculation.quantile=0.9
spark.speculation.multiplier=1.5
//常见配置
spark.executor.memory=4000M
spark.executor.cores=1
spark.executor.instances=12
spark.streaming.concurrentJobs=1
//反压
spark.streaming.backpressure.enable=true
spark.streaming.backpressure.initialRate=30000
spark.streaming.kafka.maxRatePerPartition=1000