Spark 资源和数据并行度优化分析2 | 学习笔记

开发者学堂课程【大数据实时计算框架 Spark 快速入门Spark 资源和数据并行度优化分析2 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1685


Spark 资源和数据并行度优化分析2


内容简介:

一、SPARK_WORKER_INSTANCE

二、Stage 的切割

三、Repartition 算子


一、SPARK_WORKER_INSTANCESPARK_WORKER_INSTANCE

SPARK_WORKER_INSTANCE,to set the number of worker processes per node (决定了每个节里面由多少个实例)  


二、 Stage 的切割

切割 stage 根据宽依赖进行(或者说根据 shuffle 进行) shuffle 分为 map 端和reduce端。


三、 REPARTITION 算子

repartition 算子,用于任意将 RDD 的 partition 增多或者减少!

coalesce 仅仅将 RDD 的 partition 减少!

使用 Spark SQL 从 HIVE 中查询数据时候, spark SQL 会根据 HIVE/ 对应的hdfs 文件的 block 的数量决定加载出来的 RDD 的 partition 有多少个!

默认的 partition 的数量是我们根本无法设置的

有时可能它会自动设置的 partition 的数量过少,为了进行优化可以提高并行度,就对 RDD 使用 repartition 算子!

上一篇:ajax中的高级请求和响应


下一篇:解决SecureCRT中文版“数据库里没找到防火墙‘无’”的错误提示