开发者学堂课程【大数据实时计算框架 Spark 快速入门:Spark 资源和数据并行度优化分析2 】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/100/detail/1685
Spark 资源和数据并行度优化分析2
内容简介:
一、SPARK_WORKER_INSTANCE
二、Stage 的切割
三、Repartition 算子
一、SPARK_WORKER_INSTANCESPARK_WORKER_INSTANCE
SPARK_WORKER_INSTANCE,to set the number of worker processes per node (决定了每个节里面由多少个实例)
二、 Stage 的切割
切割 stage 根据宽依赖进行(或者说根据 shuffle 进行) shuffle 分为 map 端和reduce端。
三、 REPARTITION 算子
repartition 算子,用于任意将 RDD 的 partition 增多或者减少!
coalesce 仅仅将 RDD 的 partition 减少!
使用 Spark SQL 从 HIVE 中查询数据时候, spark SQL 会根据 HIVE/ 对应的hdfs 文件的 block 的数量决定加载出来的 RDD 的 partition 有多少个!
默认的 partition 的数量是我们根本无法设置的
有时可能它会自动设置的 partition 的数量过少,为了进行优化可以提高并行度,就对 RDD 使用 repartition 算子!