hadoop cluster decommission node (下线节点,超级实用)

一、描述

为了节约成本,避免资源浪费,下线集群中的一个节点,也就是把一台云主机回收喽。

centos 6.6_64bit

hadoop 2.6.0


二、操作步骤(动态下线)

下线节点主机名如下,在hadoop用户下操作,配置文件都在conf目录下  

host-10-10-10-10   ##一看就在云上是不是


1.在conf目录下创建文件

touch excludes 

echo "host-10-10-10-10" > exclude 

less exclude     ##要有验证



2.修改配置文件hdfs-site.conf

 vi hdfs-site.xml

 添加如下内容,路径根据自己的实际情况

        <property>

                <name>dfs.hosts.exclude</name>

                <value>/usr/local/RoilandGroup/hadoop-2.6.0/etc/hadoop/excludes</value>

       </property>


3.修改配置文件 yarn-site.conf

 添加如下内容,路径根据自己的实际情况

        <property>                     

                <name>yarn.resourcemanager.nodes.exclude-path</name>

                <value>/usr/local/RoilandGroup/hadoop-2.6.0/etc/hadoop/excludes</value>

        </property>


4.刷新hdfs节点(namenode active操作)

hdfs dfsadmin -refreshNodes 

hdfs dfsadmin -report   ##观察节点是否decommission


5.刷新nodemanager节点(resourcemanager active操作)

yarn rmadmin -refreshNodes


6.修改slave文件

注释掉主机名

#host-10-10-10-10


7.同步exclude文件和slave文件

scp exclude 到namenode/resourcemanager 的 standby节点


8.再次验证,确保是我们想要的结果,通知运维同事可以回收云主机。



三、注意事项


1.生产环境操作之前一定要做好测试

2.查看官方文档,要知道自己修改的文件对系统有多大影响,做到心里有数。










本文转自 roidba 51CTO博客,原文链接:http://blog.51cto.com/roidba/1922803,如需转载请自行联系原作者
上一篇:用户对一个网站反感的原因是什么?


下一篇:Javaweb中解决跨越问题的拦截器代码