yarn日常维护之nm健康状态为false的原因查找

最近几天使用yarn集群来布flink,结果发现每次nodemanager只能启动一个,而另一个无法启动,然后取8042端口查看情况,发现NodeHealthyStatus的状态变成了False,

yarn日常维护之nm健康状态为false的原因查找

正常情况下应该是true,然后查看日志发现,

2019-07-18 21:45:50,504 WARN org.apache.hadoop.yarn.server.nodemanager.DirectoryCollection: Directory /opt/hadoop-2.7.3/tmp/nm-local-dir error, used space above threshold of 90.0%, removing from list of valid directories
2019-07-18 21:45:50,504 WARN org.apache.hadoop.yarn.server.nodemanager.DirectoryCollection: Directory /opt/hadoop-2.7.3/logs/userlogs error, used space above threshold of 90.0%, removing from list of valid directories

所以初步断定是因为disk使用量太大, hdfs的数据目录使用率达到了90%,然后yarn就修改nm的状态为不健康,所以我们只需要进行修改阀值就ok,或者动手删除数据扩大容量

我的选择是先修改阀值

<property>
<name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name>
<value>98.5</value>
</property>

接下来再启动看看,发现哎,不是这个原因。。。。。。。我接着找原因吧,找到再更新

上一篇:linux-如何从lib .so文件中查找功能?


下一篇:ORACLE触发器的自治事务的注意事项