Hadoop服务器集群崩溃的解决方案

1、正常启动的集群102、103、104Hadoop服务器集群崩溃的解决方案

Hadoop服务器集群崩溃的解决方案

Hadoop服务器集群崩溃的解决方案

在这里模拟某一个节点挂掉(以杀死进程的方式模拟namenode服务器挂掉)
Hadoop服务器集群崩溃的解决方案
这个时候去查看之前上传的文件,依然能够查看,但是该节点已经不能够下载文件,能够查看文件是因为该文件在其他的服务器上有文件备份。
Hadoop服务器集群崩溃的解决方案
点击下载发现下载失败
Hadoop服务器集群崩溃的解决方案

namenode服务器挂了之后,第一反应是重新格式化hdfs,重启服务器,
Hadoop服务器集群崩溃的解决方案

重启服务器,需要先停止之前的
Hadoop服务器集群崩溃的解决方案

102服务
Hadoop服务器集群崩溃的解决方案
103服务
Hadoop服务器集群崩溃的解决方案
104服务
Hadoop服务器集群崩溃的解决方案

所有的服务停止完毕后,再重新开启

Hadoop服务器集群崩溃的解决方案
Hadoop服务器集群崩溃的解决方案
Hadoop服务器集群崩溃的解决方案

Hadoop服务器集群崩溃的解决方案

发现有些节点并没有起来,而且服务也不能访问。

2、解决方案和原因分析

通用解决方案:
- 停止所有的服务
- 删除所有的 data目录和logs目录
- 重新初始化 hdfs namenode -format
- 重启服务

导致失败的原因: 第一次初始化启动集群的时候,每一个服务器都会生成data目录,同时包含一个namenode的版本号,版本号一直,就能够正常启动,如果两次版本不一致,就会导致服务无法启动,所以删除所有的data目录和logs目录,就是为了保证版本号一直,服务正常启动。

第一次初始化生成的版本号
Hadoop服务器集群崩溃的解决方案
第二次生成的版本号
Hadoop服务器集群崩溃的解决方案

上一篇:2021-05-08


下一篇:分布式文件系统-HDFS