## Spark作业性能调优总结

2022-02-01 11:58:11

Spark作业性能调优总结

前段时间在集群上运行Spark作业，但是发现作业运行到某个stage之后就卡住了，之后也不再有日志输出。于是开始着手对作业进行调优，下面是遇到的问题和解决过程：

运行时错误

Out Of Memory: Java heap space / GC overhead limit exceeded

使用yarn logs -applicationId=appliation_xxx_xxx 命令查看Yarn收集的各个Executor的日志。

可以发现OOM的错误，以及一些retry 或waiting timeout的错误。这是因为发生Full GC时会造成stop-the-world，应用暂停运行等待垃圾回收结束。

Java heap space是指堆内存空间不足，而GC overhead limit exeeded是Hotspot VM 1.6的一个策略，通过统计GC时间来预测是否要OOM了，提前抛出异常，防止OOM发生。Sun官方给出的定义是“并行/并发回收器在GC回收时间过长会抛出OutOfMemory。过长的定义是，超过98%的时间用来做GC并且回收了不到2%的堆内存，用来避免内存过小造成应用不能正常工作”。这个策略会保存数据或保存现场（Heap Dump）

在代码设置Spark参数，将executor的堆栈信息打印出来

conf.set("spark.executor.extraJavaOptions", "-XX:+PrintGCDetails -XX:+PrintGCTimeStamps")

在运行后的日志中可以发现如下内容：

100.667:[Full GC [Tenured: 0K->210K(10240K), 0.0149142 secs] 4603K->210K(19456K), [Perm : 2999K->2999K(21248K)], 0.0150007 secs] ```
 实际上还有total的汇总信息，如下所示：

PSYoungGen total 5496832K, used 5357511K [0x00000006aaa80000, 0x0000000800000000, 0x0000000800000000)
eden space 5402624K, 97% used [0x00000006aaa80000,0x00000007ebe75800,0x00000007f4680000)
from space 94208K, 99% used [0x00000007f4680000,0x00000007fa27c530,0x00000007fa280000)
to space 95744K, 0% used [0x00000007fa280000,0x00000007fa280000,0x0000000800000000)
ParOldGen total 11185152K, used 781938K [0x00000003fff80000, 0x00000006aaa80000, 0x00000006aaa80000)
PSPermGen total 1048576K, used 58663K [0x00000003bff80000, 0x00000003fff80000, 0x00000003fff80000)
object space 1048576K, 5% used [0x00000003bff80000,0x00000003c38c9d60,0x00000003fff80000)`
作业卡住的时候，PSPermGen的使用占比一般在99%左右，因此我在Spark程序中增大了堆外内存

conf.set("spark.executor.extraJavaOptions", "-XX:PermSize=1024m -XX:MaxPermSize=2048m -XX:+PrintGCDetails -XX:+PrintGCTimeStamps")
这里GC和Full GC代表gc停顿的类型，Full GC代表stop-the-world。箭头两边是gc前后的区间空间大小，分别是young区、tenured区和perm区，括号里是该区的大小。冒号前面是GC发生的时间，单位是秒，从jvm启动开始计算。DefNew代表Serial收集器，为Default New Generation的缩写，类似的还有PSYoundGen，代表parallel Scavenge收集器。这样可以通过分析日志找到导致GC overhead limit execeeded的原因，通过调节相应的参数解决问题。

文中涉及到的名词解释：

Eden Space：堆内存池，大多数对象在这里分配内存空间

Survivor Space：堆内存池，存储在Eden Space中存活下来的对象

Tenured Generation：堆内存，存储Survivor Space中存过几次GC的对象

Permanent Generation：非对空间，存储的是class和method对象

Code Cache：非堆空间，JVM用来存储编译和存储native code

Executor & Task Lost

executor lost

WARN TaskSetManager: Lost task 1.0 in stage 0.0 (TID 1, aa.local):
ExecutorLostFailure (executor lost)
task lost

WARN TaskSetManager: Lost task 69.2 in stage 7.0 (TID 1145, 192.168.47.217):
java.io.IOException: Connection from /192.168.47.217:55483 closed
各种timeout

java.util.concurrent.TimeoutException: Futures timed out after [120 second]

ERROR TransportChannelHandler: Connection to /192.168.47.212:35409
has been quiet for 120000 ms while there are outstanding requests.
Assuming connection is dead; please adjust spark.network.
timeout if this is wrong
解决：由网络或者GC引起，worker或者executor没有接收到executor或task的心跳反馈，提高spark.core.connection.ack.wait.timeout 的值，根据情况改为300s或更高。增大spark.yarn.executor.memoryOverhead 堆外内存的值，根据情况改为4096或更高。

倾斜

数据倾斜

任务倾斜

差距不大的几个task，有的运行速度特别慢

解决：大多数任务都完成了，还有一两个任务怎们都跑不完或者跑的很慢，分数据倾斜和任务倾斜

数据倾斜：

数据倾斜大多数情况是由于大量的无效数据引起，比如null或者“ ”，也有可能是一些异常数据，，比如统计用户登录情况时，出现某用户登录过千万次的情况，无效数据在计算前需要过滤掉。
数据处理有一个原则，多使用filter，这样你真正需要分析的数据量就越少，处理速度就越快。

具体可参见解决spark中遇到的数据倾斜问题

任务倾斜

task倾斜原因比较多，网络io，cpu，mem都有可能造成这个节点上的任务执行缓慢，可以去看该节点的性能监控过来分析原因。以前遇到过同事在spark的一台worker上跑R的任务导致该节点spark task运行缓慢。
或者可以开启spark的推测机制，开启推测机制后如果某一台机器的几个task特别慢，推测机制会将任务分配到其他机器执行，最后Spark会选取最快的作为最终结果。


spark.speculation.interval 100 - 检测周期，单位毫秒；

spark.speculation.quantile 0.75 - 完成task的百分比时启动推测

spark.speculation.multiplier 1.5 - 比其他的慢多少倍时启动推测。```

####OOM
解决： 内存不够，数据太多就会抛出OOM的Exception，主要有Driver OOm和Executor OOM两种

Driver OOM

一般是使用了collect操作将所有executor的数据聚合到dirver端导致，尽量不要使用collect操作即可

Executor OOM

可以按下面的内存优化的方法增加code使用内存空间

增加executor内存总量，也就是说增加spark.executor.memory 的值

增加任务并行度（大任务就被分割成小任务了），参考下面优化并行度的方法

#### 一些优化

部分Executor不执行任务

有时候会发现部分executor并没有执行任务，为什么呢？

任务partition数量过少

每个partition只会在一个task执行任务。改变分区数，可以通过repartition方法，即使这样，在repartition前面还是要从数据源读取数据，此时（读入数据）的并发度根据不同的数据源受到不同限制，常用的大概有以下几种：

 

hdfs － block数就是partition数
mysql － 按读入时的分区规则分partition
es - 分区数即为 es 的 分片数（shard）
数据本地行的副作用

taskManager在分发任务之前会优先计算数据本地行，优先等级是：

 

`process(同一个executor) -> node_local(同一个节点) -> rack_local(同一个机架) -> any(任何结点)`
Spark会优先执行高优先级的任务，    任务完成的速度很快（小于设置的spark.locality.wait时间），则数据本地性下一级别的任务则一直不会启动，这就是Spark的延时调度机制。

举个极端例子：运行一个count任务，如果数据全都堆积在某一台节点上，那将只会有这台机器在长期计算任务，集群中的其他机器则会处于等待状态（等待本地性降级）而不执行任务，造成了大量的资源浪费。

 

判断的公式为：`curTime – lastLaunchTime >= localityWaits(currentLocalityIndex)`
其中 curTime 为系统当前时间，lastLaunchTime 为在某优先级下最后一次启动task的时间

如果满足这个条件则会进入下一个优先级的时间判断，直到 any，不满足则分配当前优先级的任务。

数据本地性任务分配的源码在 taskSetManager.Scala 。

如果存在大量executor处于等待状态，可以降低以下参数的值（也可以设置为0），默认都是3s。

spark.locality.wait.process
spark.locality.wait.node
spark.locality.wait.rack`
当你数据本地性很差，可适当提高上述值，当然也可以直接在集群中对数据进行balance。

内存

如果你的Shuffle量特别大，同时rdd缓存比较少可以更改下面的参数进一步提高任务运行速度

spark.storage.memoryFraction - 分配给rdd缓存的比例，默认为0.6(60%)，如果缓存的数据比较少可以降低该值

spark.shuffle.memoryFraction - 分配给shuffle数据的比例，默认为0.2(20%)，剩下的20%内存空间则是分配给代码生成对象等。

如果运行任务运行缓慢，jvm进行频繁GC或者内存空间不足，或者可以降低上述的两个值。

"spark.rdd.compress","true" －默认为false，压缩序列化的RDD分区,消耗一些cpu减少空间的使用

以上这些方法是我在解决Spark作业性能过程中接触的，更加详细的情况以及解决方法可以看这篇文章Spark排错与优化，总结的非常详细了。

此外，还是应该多看Spark调度的源码，对写代码已经分析问题都非常有帮助。

码农公寓