在linux中安装hadoop（详细）

2023-01-04 15:29:31

安装包可在官网找，如

http://archive.apache.org

一、虚拟机安装

前置：安装vmware（可在百度中找得）

1.1安装虚拟机-Linux

1. 点击新建虚拟机，选择自定义

2. 虚拟机兼容性默认即可

3. 客户机操作系统选择稍后安装操作系统

4. 选择客户机操作系统选择Linux，版本我选择了Red Hat Enterprise Linux 6 64位

5. 选择虚拟机位置和名称

6. 处理器配置把每个处理器的内核数量改为2

7. 设置虚拟机内存

8. 使用NAT网络

9. 控制器类型选择推荐

10. 磁盘类型选择推荐

11. 创建新虚拟磁盘

12. 磁盘容量大小50GB（要大一些，不然集群处理时因磁盘太小进入安全模式）

13. 指定磁盘文件默认

14. 新建虚拟机完成

1.2初始化虚拟机

1. 点击编辑虚拟机设置，选择CD/DVD，点击使用ISO映像文件

正在上传…重新上传取消正在上传…重新上传取消正在上传…重新上传取消

2. 开启虚拟机选择第一个

2. 选择skip

3. 选择语言中文简体，选择键盘用美式键盘。

4. 选择安装类型选择基本存储设备，忽略所有数据

5. 主机命名hadoop01,并点击左下角配置网络，编辑，选择自动连接，应用

6. 时区选择亚洲/上海

7. 设置管理员密码

8. 安装类型选择使用所有空间，并写入磁盘

9. 安装服务器选择基本服务器

10. 安装完成，重启

11. 创建三个目录

二、网络配置

2.1 修改虚拟机网络配置

1. 查看VMware服务是否都在运行（任务管理器中）

2. 打开虚拟机-编辑-虚拟网络编辑器，选择NAT模式

3. 点击更改设置-将子网IP改成192.168.121.0

4. 打开NAT设置，将网关改成192.168.121.2

5. 打开DHCP设置，设置起始IP和结束IP

2.2修改Windows网络配置

1. 打开“网络和Internal”配置，打开以太网，更改适配器选项

选择VMnet8-属性-IPv4协议属性修改

2.3配置主机名

1.将复制的hadoop02和hadoop03的主机名修改

使用命令：vi /etc/sysconfig/network

2.4 配置每台虚拟机的IP映射

在三台服务器都使用命令配置：vi /etc/hosts

增加

192.168.121.134 hadoop01

192.168.121.135 hadoop02

192.168.121.136 hadoop03

2.5 网络参数配置

1.修改IPv4配置

vi /etc/udev/rules.d/70-persistent-net.rules （只需要将另外两台的etho去掉，将eth1修改为etho即可）

2. 查看IP并测试连接百度

成功连接

三、SSH服务配置

3.1查看安装并开启SSH服务

通过命令安装SSH：yum install openssh-server
命令行输入rpm –qa | grep ssh查看是否安装SSH

3.启动SSH服务ps –e | grep sshd

4.使用Xshell工具远程连接服务器

打开文件-新建

在连接中填写主机号，端口号选择22

点击用户身份验证，填写登录用户名和密码

点击确定。

第一次连接会有安全警告，可以选择接收并保存，这样下次连接不用输入用户名密码

5.连接成功

6.再以同样的方式连接另外两台主机

3.2 实现免密登录—公钥私钥

执行命令产生密钥对：ssh-keygen -t rsa

Enter file in which to save the key (/root/.ssh/id_rsa): 选择存储路径，没有就选择默认路径(/root/.ssh/id_rsa)

Enter passphrase (empty for no passphrase):设置密码，不设置为空

查看目录发现已经生成公钥和私钥。

再以同样方式使另外两台主机生成密钥对

拷贝公钥给同一台主机

三台主机都执行命令将公钥保存在第一台主机：ssh-copy-id hadoop01

查看第一台主机目录可以看见三台主机的公钥

使用远程拷贝将数据发送给其余两台主机

在第一台主机执行命令：

scp /root/.ssh/authorized_keys hadoop02:/root/.ssh

scp /root/.ssh/authorized_keys hadoop03:/root/.ssh

连接测试

成功连接

四、Hadoop集群部署

4.1 JDK安装

1.可下载xftp直接将压缩包拉进去

2.之后即可在xshell中使用而不需要解压

3. 解压和重命名

使用命令：tar -zxvf jdk-8u65-linux-x64.tar.gz -C /export/servers（需要解压的为这个命令）

重命名：mv jdk1.8.0_65/ jdk

编辑变量：vi /etc/profile，添加

4. 重启：source /etc/profile

5. 验证

4.2 Hadoop安装

和安装jdk一样

修改配置文件: vi /etc/profile，重启

export HADOOP_HOME=/export/servers/hadoop-2.7.4

export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

验证环境

4.3 Hadoop集群配置

1. 修改Hadoop-env.sh配置文件

cd /export/servers/Hadoop-2.7.4/etc/hadoop

vi hadoop-env.sh

2. 修改core-site.xml文件：vi core-site.xml

指定Hadoop集群文件系统类型：HDFS(分布式)并且主节点在hadoop01上端口号为9000

指定Hadoop临时文件存储目录

3. 修改hdfs-site.xml文件：vi hdfs-site.xml

指定Hadoop存储文件时的生成副本数：3

指定辅助管理节点在hadoop02端口号为50090

4. 配置Hadoop集群主节点

修改mapred-site.xml文件

指定MapReduce运行时框架，指定在Yarn上，默认是local

复制模板，修改: cp mapred-site.xml.template mapred-site.xml; vi mapred-site.xml

5. 修改yarn-site.xml文件：分布式资源调度系统

设置yarn主节点在hadoop01

辅助配置

6. 修改slaves文件。先删除里面默认localhost,再修改

配置整个集群的从节点，包括hdfs从节点和yarn的从节点

7. 将集群主节点的配置文件分发到其他子节点

scp /etc/profile hadoop02:/etc/profile

scp /etc/profile hadoop03:/etc/profile

scp -r /export/ hadoop02:/

scp -r /export/ hadoop03:/

再去hadoop02和hadoop03执行命令是文件生效：source /etc/profile

五、格式化文件系统

5.1 格式化

在hadoop的任何一个目录下都可以运行命令：hdfs namenode -format

注意：格式化文件系统只在第一次启动hdfs集群时执行

六、Hadoop的集群和关闭

6.1 单节点逐个启动和关闭

1. 主节点输入命令运行脚本启动进程：hadoop-daemon.sh start namenode

2. 启动从节点进程：hadoop-daemon.sh start datanode

查看java相关的进程

在hadoop02和hadoop03也执行命令开启hdfs从节点

3. 在主节点上启动yarn的主节点和从节点

在hadoop02和hadoop03也执行命令开启yarn从节点

4. 在hadoop02运行脚本启动辅助管理

5. 关闭

6.2 脚本一键启动和关闭

启动hdfs和yarn

关闭

七、测试Hadoop集群-单词统计

1. Ip映射

2. 关闭防火墙

三个服务器都关闭防火墙和关闭开机启动

3. 再次启动hdfs和yarn进程