安装包可在官网找,如
一、 虚拟机安装
前置:安装vmware(可在百度中找得)
1.1安装虚拟机-Linux
1. 点击新建虚拟机,选择自定义
2. 虚拟机兼容性默认即可
3. 客户机操作系统选择稍后安装操作系统
4. 选择客户机操作系统选择Linux,版本我选择了Red Hat Enterprise Linux 6 64位
5. 选择虚拟机位置和名称
6. 处理器配置把每个处理器的内核数量改为2
7. 设置虚拟机内存
8. 使用NAT网络
9. 控制器类型选择推荐
10. 磁盘类型选择推荐
11. 创建新虚拟磁盘
12. 磁盘容量大小50GB(要大一些,不然集群处理时因磁盘太小进入安全模式)
13. 指定磁盘文件默认
14. 新建虚拟机完成
1.2初始化虚拟机
1. 点击编辑虚拟机设置,选择CD/DVD,点击使用ISO映像文件
正在上传…重新上传取消正在上传…重新上传取消正在上传…重新上传取消
2. 开启虚拟机选择第一个
2. 选择skip
3. 选择语言中文简体,选择键盘用美式键盘。
4. 选择安装类型选择基本存储设备,忽略所有数据
5. 主机命名hadoop01,并点击左下角配置网络,编辑,选择自动连接,应用
6. 时区选择亚洲/上海
7. 设置管理员密码
8. 安装类型选择使用所有空间,并写入磁盘
9. 安装服务器选择基本服务器
10. 安装完成,重启
11. 创建三个目录
二、网络配置
2.1 修改虚拟机网络配置
1. 查看VMware服务是否都在运行(任务管理器中)
2. 打开虚拟机-编辑-虚拟网络编辑器,选择NAT模式
3. 点击更改设置-将子网IP改成192.168.121.0
4. 打开NAT设置,将网关改成192.168.121.2
5. 打开DHCP设置,设置起始IP和结束IP
2.2修改Windows网络配置
1. 打开“网络和Internal”配置,打开以太网,更改适配器选项
选择VMnet8-属性-IPv4协议属性修改
2.3配置主机名
1.将复制的hadoop02和hadoop03的主机名修改
使用命令:vi /etc/sysconfig/network
2.4 配置每台虚拟机的IP映射
在三台服务器都使用命令配置:vi /etc/hosts
增加
192.168.121.134 hadoop01
192.168.121.135 hadoop02
192.168.121.136 hadoop03
2.5 网络参数配置
1.修改IPv4配置
vi /etc/udev/rules.d/70-persistent-net.rules (只需要将另外两台的etho去掉,将eth1修改为etho即可)
2. 查看IP并测试连接百度
成功连接
三、SSH服务配置
3.1查看安装并开启SSH服务
- 通过命令安装SSH:yum install openssh-server
- 命令行输入rpm –qa | grep ssh查看是否安装SSH
3.启动SSH服务ps –e | grep sshd
4.使用Xshell工具远程连接服务器
打开文件-新建
在连接中填写主机号,端口号选择22
点击用户身份验证,填写登录用户名和密码
点击确定。
第一次连接会有安全警告,可以选择接收并保存,这样下次连接不用输入用户名密码
5.连接成功
6.再以同样的方式连接另外两台主机
3.2 实现免密登录—公钥私钥
- 执行命令产生密钥对:ssh-keygen -t rsa
Enter file in which to save the key (/root/.ssh/id_rsa): 选择存储路径,没有就选择默认路径(/root/.ssh/id_rsa)
Enter passphrase (empty for no passphrase):设置密码,不设置为空
查看目录发现已经生成公钥和私钥。
再以同样方式使另外两台主机生成密钥对
拷贝公钥给同一台主机
三台主机都执行命令将公钥保存在第一台主机:ssh-copy-id hadoop01
- 查看第一台主机目录可以看见三台主机的公钥
- 使用远程拷贝将数据发送给其余两台主机
在第一台主机执行命令:
scp /root/.ssh/authorized_keys hadoop02:/root/.ssh
scp /root/.ssh/authorized_keys hadoop03:/root/.ssh
- 连接测试
成功连接
四、Hadoop集群部署
4.1 JDK安装
1.可下载xftp直接将压缩包拉进去
2.之后即可在xshell中使用而不需要解压
3. 解压和重命名
使用命令:tar -zxvf jdk-8u65-linux-x64.tar.gz -C /export/servers(需要解压的为这个命令)
重命名:mv jdk1.8.0_65/ jdk
编辑变量:vi /etc/profile,添加
4. 重启:source /etc/profile
5. 验证
4.2 Hadoop安装
和安装jdk一样
修改配置文件: vi /etc/profile,重启
export HADOOP_HOME=/export/servers/hadoop-2.7.4
export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
验证环境
4.3 Hadoop集群配置
1. 修改Hadoop-env.sh配置文件
cd /export/servers/Hadoop-2.7.4/etc/hadoop
vi hadoop-env.sh
2. 修改core-site.xml文件:vi core-site.xml
指定Hadoop集群文件系统类型:HDFS(分布式)并且主节点在hadoop01上端口号为9000
指定Hadoop临时文件存储目录
3. 修改hdfs-site.xml文件:vi hdfs-site.xml
指定Hadoop存储文件时的生成副本数:3
指定辅助管理节点在hadoop02端口号为50090
4. 配置Hadoop集群主节点
修改mapred-site.xml文件
指定MapReduce运行时框架,指定在Yarn上,默认是local
复制模板,修改: cp mapred-site.xml.template mapred-site.xml; vi mapred-site.xml
5. 修改yarn-site.xml文件:分布式资源调度系统
设置yarn主节点在hadoop01
辅助配置
6. 修改slaves文件。先删除里面默认localhost,再修改
配置整个集群的从节点,包括hdfs从节点和yarn的从节点
7. 将集群主节点的配置文件分发到其他子节点
scp /etc/profile hadoop02:/etc/profile
scp /etc/profile hadoop03:/etc/profile
scp -r /export/ hadoop02:/
scp -r /export/ hadoop03:/
再去hadoop02和hadoop03执行命令是文件生效:source /etc/profile
五、格式化文件系统
5.1 格式化
在hadoop的任何一个目录下都可以运行命令:hdfs namenode -format
注意:格式化文件系统只在第一次启动hdfs集群时执行
六、Hadoop的集群和关闭
6.1 单节点逐个启动和关闭
1. 主节点输入命令运行脚本启动进程:hadoop-daemon.sh start namenode
2. 启动从节点进程:hadoop-daemon.sh start datanode
查看java相关的进程
在hadoop02和hadoop03也执行命令开启hdfs从节点
3. 在主节点上启动yarn的主节点和从节点
在hadoop02和hadoop03也执行命令开启yarn从节点
4. 在hadoop02运行脚本启动辅助管理
5. 关闭
6.2 脚本一键启动和关闭
启动hdfs和yarn
关闭
七、 测试Hadoop集群-单词统计
1. Ip映射
2. 关闭防火墙
三个服务器都关闭防火墙和关闭开机启动
3. 再次启动hdfs和yarn进程