1、正常启动的集群102、103、104
在这里模拟某一个节点挂掉(以杀死进程的方式模拟namenode服务器挂掉)
这个时候去查看之前上传的文件,依然能够查看,但是该节点已经不能够下载文件,能够查看文件是因为该文件在其他的服务器上有文件备份。
点击下载发现下载失败
namenode服务器挂了之后,第一反应是重新格式化hdfs,重启服务器,
重启服务器,需要先停止之前的
102服务
103服务
104服务
所有的服务停止完毕后,再重新开启
发现有些节点并没有起来,而且服务也不能访问。
2、解决方案和原因分析
通用解决方案:
- 停止所有的服务
- 删除所有的 data目录和logs目录
- 重新初始化 hdfs namenode -format
- 重启服务
导致失败的原因: 第一次初始化启动集群的时候,每一个服务器都会生成data目录,同时包含一个namenode的版本号,版本号一直,就能够正常启动,如果两次版本不一致,就会导致服务无法启动,所以删除所有的data目录和logs目录,就是为了保证版本号一直,服务正常启动。
第一次初始化生成的版本号
第二次生成的版本号