最近几天使用yarn集群来布flink,结果发现每次nodemanager只能启动一个,而另一个无法启动,然后取8042端口查看情况,发现NodeHealthyStatus的状态变成了False,
正常情况下应该是true,然后查看日志发现,
2019-07-18 21:45:50,504 WARN org.apache.hadoop.yarn.server.nodemanager.DirectoryCollection: Directory /opt/hadoop-2.7.3/tmp/nm-local-dir error, used space above threshold of 90.0%, removing from list of valid directories
2019-07-18 21:45:50,504 WARN org.apache.hadoop.yarn.server.nodemanager.DirectoryCollection: Directory /opt/hadoop-2.7.3/logs/userlogs error, used space above threshold of 90.0%, removing from list of valid directories
所以初步断定是因为disk使用量太大, hdfs的数据目录使用率达到了90%,然后yarn就修改nm的状态为不健康,所以我们只需要进行修改阀值就ok,或者动手删除数据扩大容量
我的选择是先修改阀值
<property>
<name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name>
<value>98.5</value>
</property>
接下来再启动看看,发现哎,不是这个原因。。。。。。。我接着找原因吧,找到再更新