任务中如何确定spark分区数、task数目、core个数、worker节点个数、executor数量

PASS

 

spark中repartition什么分区最合适
1.节点*每台核数
2.hdfs块数/128
3.goal文件切片那边 分区数接近2000,写2000

如果核数少,task数用2到3倍,文件朵的更碎,有效利用核资源
2 300 ~ 1000 节点*每台核数
太大了,>2000,写2000

上一篇:redisson分布式锁实践


下一篇:码了2000多行代码就是为了讲清楚TLS握手流程(续)