spark内核与源码
一、环境准备(Yarn集群)
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10
spark-submit
--class org.apache.spark.examples.SparkPi
--master local[2]
../examples/jars/spark-examples_2.12-3.0.0.jar
10
二、组件通信
Driver => Executor
三、应用程序的执行
1、RDD依赖
2、阶段划分
3、任务切分
4、任务的调度
5、任务执行
四、Shuffle
1、Shuffle 的原理和执行过程
- shuffleWriterProcessor(写处理器)
- ShuffleManager: Hash(早期) & Sort(当前)