spark内核与源码

spark内核与源码

一、环境准备(Yarn集群)

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10
spark-submit
--class org.apache.spark.examples.SparkPi
--master  local[2]
../examples/jars/spark-examples_2.12-3.0.0.jar
10

spark内核与源码

二、组件通信

Driver => Executor
spark内核与源码

三、应用程序的执行

1、RDD依赖

spark内核与源码

2、阶段划分

spark内核与源码

3、任务切分

4、任务的调度

spark内核与源码

5、任务执行

spark内核与源码

四、Shuffle

spark内核与源码
spark内核与源码

1、Shuffle 的原理和执行过程

  • shuffleWriterProcessor(写处理器)
  • ShuffleManager: Hash(早期) & Sort(当前)

spark内核与源码

2、Shuffle 写磁盘

spark内核与源码

3、Shuffle 读取磁盘

五、内存的管理

1、内存的分类

spark内核与源码

2、内存的配置

spark内核与源码

上一篇:阅读《代码整洁之道》总结


下一篇:【ACWing 1015.】摘花生 (线性dp)