Hadoop完全分布式环境搭建（nat模式）

2023-11-17 21:23:52

软件准备：VMware、Xshell、Notepad++

1、克隆

选中要克隆的虚拟机，在Vmware工具栏上方点击虚拟机——>管理——>克隆。之后进入克隆设置界面，根据向导提示，完成克隆（克隆步骤基本上都是选择系统默认的安装步骤，然后单机下一步。值得注意的是，在克隆类型的时候，需要选择创建完整克隆）

重复以上步骤，克隆出另外两台虚拟机（我将其命名为slave1和slave2，大家可以根据自己命名习惯进行修改）

此外，还需要将主机的内存设置为1536MB

2、 Linux配置

（1）修改主机名（此步可以不用操作）

使用命令：vim /etc/hostname，将主机名改为data

（2）IP地址修改

使用命令：vim /etc/sysconfig/network-scripts/ifcfg-ens33。进入页面以后，进行如下红框内容的修改：

其中：

BOTTRPROTO=static #设置静态IP

ONBOOT=yes #是指明在系统启动时是否激活网卡，只有在激活状态的网卡才能去连接网络，进行网络通讯

IPADDR=xxx.xxx.xxx.xxx #主机的IP地址

NETMASK #子网掩码，通过cmd的ipconfig命令即可查看

GATEWAY #网关，通过cmd的ipconfig命令即可查看，你使用的是哪个模式，对应的网关就是哪个

（3）修改主机名和IP的映射关系

使用命令：vim /etc/hosts

修改内容如下：

192.168.49.X（你的主机IP地址）——>data （此处不做要求）

（4）重启系统

使用命令：reboot或者init 6

（5）测试（查看主机名是否修改成功、IP地址是否一致）

（6）关闭防火墙

systemctl disable firewalld.service #禁止firewall开机启动

systemctl list-unit-files|grep firewalld.service # 查看firewall状态

至此，已完成linux的配置。

3、SSH免密码登录

主机操作步骤：

slave1操作步骤：

slave2操作步骤

经过上述步骤，能够成功在data端口，进入slave1、slave2效果如下，已达到预期效果：

4、Hadoop搭建（配置相关文件的时候，根据自己的主机名和其他两台虚拟机的名称进行修改）

Step1 修改 hadoop目录下../etc/hadoop/core-site.xml文件

<configuration>
<property>
<name> fs.default.name</ name>
<value>hdfs: //data: 9000</value>
</property>
<property>
<name>fs.trash.interval</name>
<value>420</value>
</property>
</configuration>

Step 2 修改hadoop目录下../etc/hadoop/hdfs-site.xml

<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/usr/local/data/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/data/datanode</value>
</property>
<property>
<name>dfs.tmp.dir</name>
<value>/usr/local/data/tmp</value>
</property>
<property>
<name>dfs.namenode.secondary.http- address</name>
<value>slave2:50090</value>
</property>
</configuration>

Step 3 修改hadoop目录下../etc/hadoop/mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>data:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>data:19888</value>
</property>
</configuration>

Step 4 修改hadoop目录下../etc/hadoop/yarn-site.xml

<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>slave1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>420</value>
</property>
</configuration>