1.概述
flink作业按照配置应该启动4个taskManager,但是现在发现一个作业启动了十几个taskManager,jobManager只监控到3个taskManager,导致集群资源耗尽,启动不了新的taskManager了。还在不断尝试启动一个新的taskManager,导致作业一直在创建状态
我怀疑作业运行一段时间,和某些taskManager失联了,然后疯狂启动tm,并伴随部分tm失联,失联的tm pod也没有被清理掉,直到资源被tm耗尽。
on K8s网络性能确实不太好,我们之前测试环境的小机器小带宽也是各种毛病
可以看看TM报的什么错,然后适当调调Akka超时或者心跳超时之类的