搭建学习大数据,需要的虚拟机Linux集群环境

网页右边,向下滑有目录索引,可以根据标题跳转到你想看的内容
如果右边没有就找找左边
本文是我学习尚硅谷Hadoop3.1.x的学习笔记
视频资源地址:https://www.bilibili.com/video/BV1Qp4y1n7EN?p=34&spm_id_from=pageDriver

一、搞3台做实验的虚拟机

1、 搭建Linux虚拟机环境

由于篇幅大,我将Linux虚拟机搭建放在这篇文章中:https://blog.csdn.net/grd_java/article/details/115676099
虚拟机搭建完成后,你还需要学会使用远程访问工具:https://blog.csdn.net/grd_java/article/details/107233667
这篇文章中有介绍到

2、 给Linux安装epel-release

  1. 如果你安装的是桌面标准版,只需要安装epel-release即可
    搭建学习大数据,需要的虚拟机Linux集群环境
 yum install -y epel-release
  1. 解决可能出现进程被占用的情况
    搭建学习大数据,需要的虚拟机Linux集群环境
kill -9 3030
  1. 如果你安装的是最小系统版,还需要安装如下工具
➢ net-tool:工具包集合,包含 ifconfig 等命令
[root@hadoop100 ~]# yum install -y net-tools 
➢ vim:编辑器
[root@hadoop100 ~]# yum install -y vim

3、关闭防火墙

企业中,通常公司会整体对外设置非常安全的防火墙,所以我们关闭linux防火墙
搭建学习大数据,需要的虚拟机Linux集群环境

➢ 关闭防火墙
	[root@hadoop100 ~]# systemctl stop firewalld
➢ 关闭防火墙开机自启动
	[root@hadoop100 ~]# systemctl disable firewalld.service

4、为非root用户开启加sudo执行root命令的权限

非root用户是无法使用root命令的,而有些时候我们需要非root用户执行一些命令,就可以为其开启sudo权限

  1. 进入sudoers文件
    搭建学习大数据,需要的虚拟机Linux集群环境
  2. 找到如下命令并修改(hadoop100是我linux里面的一个非root用户)
    搭建学习大数据,需要的虚拟机Linux集群环境
hadoop100 ALL=(ALL) NOPASSWD:ALL

搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境

➢ 删除指定文件夹
	sudo rm -rf rh/
➢ 创建文件夹
	[hadoop100@hadoop100 opt]$ sudo mkdir module 
	[hadoop100@hadoop100 opt]$ sudo mkdir software
	[hadoop100@hadoop100 opt]$ ll
	总用量 0
	drwxr-xr-x. 2 root root 6 4月  14 09:49 module
	drwxr-xr-x. 2 root root 6 4月  14 09:52 software
➢ 将文件所属用户改为hadoop100
	[hadoop100@hadoop100 opt]$ sudo chown hadoop100:hadoop100 module/ software/
	[hadoop100@hadoop100 opt]$ ll
	总用量 0
	drwxr-xr-x. 2 hadoop100 hadoop100 6 4月  14 09:49 module
	drwxr-xr-x. 2 hadoop100 hadoop100 6 4月  14 09:52 software

5、卸载虚拟机自带JDK

桌面板默认带一个JDK,我们需要卸载,如果是最小化安装则不需要

  1. 进入root用户下,然后卸载搭建学习大数据,需要的虚拟机Linux集群环境
rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
➢ rpm -qa:查询所安装的所有 rpm 软件包
➢ grep -i:忽略大小写
➢ xargs -n1:表示每次只传递一个参数,就是如果前面查询出来有多个,一个一个卸载,而不是一起卸载,容易死机
➢ rpm -e –nodeps:强制卸载软件

6、重启虚拟机后克隆虚拟机

  1. 重启虚拟机(为了让刚才的更改不出差错)
    搭建学习大数据,需要的虚拟机Linux集群环境
  2. 关闭虚拟机
    搭建学习大数据,需要的虚拟机Linux集群环境
  3. 克隆虚拟机
    搭建学习大数据,需要的虚拟机Linux集群环境
  4. 各选项如何选择
    搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境
  5. 克隆3台虚拟机,然后将这3台放在一个文件夹,我们用克隆后的3台虚拟机,而最开始的Hadoop100,我们就不用了,保留着日后继续克隆,因为后续学习中,虚拟机很容易玩坏,那么之后我们只需要再克隆3台就行了
    搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境
  6. 虚拟机如何删除?(这里只是告诉你如何删除,日后虚拟机玩坏方便删除,现在没问题可不要真的给删了
  1. 移除,只是将虚拟机从列表中移除,但在本地上还有,日后可以添加回来
    搭建学习大数据,需要的虚拟机Linux集群环境
  2. 彻底删除(无法恢复)
    搭建学习大数据,需要的虚拟机Linux集群环境

7、给克隆后的虚拟机配置ip和主机名

  1. 打开Hadoop102虚拟机,进入root用户,使用vim编辑ip地址
    搭建学习大数据,需要的虚拟机Linux集群环境
    搭建学习大数据,需要的虚拟机Linux集群环境
➢ 注意,当下面的命令敲到ifcfg-ens后,每个虚拟机后面的数字是不同的,你可以按键盘上的TAB键自动补齐,以防出错
vim /etc/sysconfig/network-scripts/ifcfg-ens33 
  1. 改主机名
    搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境
  2. 映射
    搭建学习大数据,需要的虚拟机Linux集群环境
    搭建学习大数据,需要的虚拟机Linux集群环境
  3. 重启虚拟机
    搭建学习大数据,需要的虚拟机Linux集群环境
  4. 根据上面的步骤,配置103和104虚拟机,一样将103ip改为103,104ip改为104,主机名改成和自己匹配的即可,然后看各虚拟机是否可以上网
    搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境
    6、通过putty工具远程连接3个虚拟机
    搭建学习大数据,需要的虚拟机Linux集群环境

二、开发环境

1、给虚拟机安装JDK

只需给Hadoop102安装,然后103和104只需要拷贝即可
首先我们需要获取linux的jdk8和hadoop3.1.x的linux包
  1. JDK https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html
    搭建学习大数据,需要的虚拟机Linux集群环境
  2. Hadoop https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz
    搭建学习大数据,需要的虚拟机Linux集群环境
通过远程传输工具,将两个包传输给虚拟机
  1. 使用WinSCP远程连接虚拟机
    搭建学习大数据,需要的虚拟机Linux集群环境
  2. 把我们刚刚下载的包传输给虚拟机
    搭建学习大数据,需要的虚拟机Linux集群环境
  3. 进虚拟机目录中检查文件是否传输成功
    搭建学习大数据,需要的虚拟机Linux集群环境
安装JDK

搭建学习大数据,需要的虚拟机Linux集群环境

tar -zxvf jdk-8u281-linux-x64.tar.gz -C /opt/module/
配置JDK环境变量
  1. 进入/etc/profile.d文件夹(可见有很多sh后缀的文件,当虚拟机启动,会依次加载这些sh文件,将环境变量加载进去
    搭建学习大数据,需要的虚拟机Linux集群环境
  2. 创建自己的sh文件my_env.sh,意思是我的环境变量,直接用vim创建打开
    搭建学习大数据,需要的虚拟机Linux集群环境
  3. 配置环境变量
    搭建学习大数据,需要的虚拟机Linux集群环境
➢ #JAVA_HOME ,#表示注释
➢ export 表示全局声明,表示将内容暴露出去
➢ JAVA_HOME=/opt/module/jdk1.8.0_281,配置JAVA_HOME,后面是我们安装JDK的目录
➢ $PATH表示引用PATH,:表示拼接
➢ $PATH:$JAVA_HOME/bin表示在原有$PATH的基础上拼接上JDK环境变量
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_281
export PATH=$PATH:$JAVA_HOME/bin
  1. 重新加载环境变量(如果输入java没有出来信息,试着重启一下)
    搭建学习大数据,需要的虚拟机Linux集群环境
source /etc/profile
安装Hadoop,配置Hadoop环境变量
配置hadoop环境变量需要引入bin和sbin目录
bin目录主要包括yarn等组件
sbing目录主要包括启动yarn等组件的sh文件
  1. 安装
    搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境
  2. 配置环境变量
    搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境
  3. 查看是否成功
    搭建学习大数据,需要的虚拟机Linux集群环境

三、集群分发(此章节主要介绍方便集群管理的常用工具)

1、脚本分发

我们现在只有一台虚拟机上有JDK和hadoop运行环境,我们可以通过脚本分发,将环境分发给另外两个服务器
如果你不想学脚本,可以选择在另外两台虚拟机,使用上面的步骤安装jdk,安装hadoop,配置环境变量

1. scp(secure copy) 安全拷贝

scp
scp 可以实现服务器与服务器之间的数据拷贝
➢ 基本语法:
	scp -r $pdir/$fname $user@$host:$pdir/$fname
	命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
➢ 前提(我下面的命令都是根据下面条件进行操作的,如果你和我的不一样,需要换成你自己的)
	在 hadoop102、hadoop103、hadoop104 都已经创建好的/opt/module和/opt/software 
	两个目录,并且已经把这两个目录修改为相同的非root用户,比如我的都是
	hadoop100
➢ 修改目录为指定用户的命令(我这里改成了hadoop100)
	sudo chown Hadoop100:Hadoop100 -R /opt/module
  1. 在hadoop102上,将jdk拷贝到hadoop103
    搭建学习大数据,需要的虚拟机Linux集群环境
➢ 下面的命令是,使用scp命令通过递归的方式将/opt/module/jdk1.8.0_212目录
	拷贝到,指定ip虚拟机的/opt/module目录下,并且属于hadoop100用户
	@hadoop103是主机地址映射,我们前面介绍过,vim /etc/hostname配置
scp -r /opt/module/jdk1.8.0_212 hadoop100@hadoop103:/opt/module
  1. 在hadoop103上,将hadoop102的hadoop安装包拷贝到hadoop103上(其实完全可以用上面传输JDK的命令一起传,这里是为了介绍不同的方式
➢ 下面的命令是,将指定ip的/opt/module/hadoop-3.1.3(同时指定这个文件的所有者)
	拷贝到当前虚拟机的 /opt/module/目录下,文件所有者为当前用户
scp -r hadoop100@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/
  1. 在hadoop103上,将hadoop102中的jdk和hadoop全部拷贝到hadoop104上
➢ 下面的命令是,将指定ip(hadoop102)的指定目录拷贝到另一个指定ip(hadoop104)
	的指定目录下
scp -r hadoop100@hadoop102:/opt/module/* hadoop100@hadoop104:/opt/module

2、 rsync远程同步工具

非常重要的一件事
[hadoop100@hadoop102 ~]:只要看到 ~ 这个路径,表示在当前用户的home目录下,下面代码中,会频繁出现@hadoop102 ~,代表当前用户home下
rsync
主要用于备份和镜像
速度快、避免复制相同内容和支持符号链接
rsync 和 scp 区别:用 rsync 做文件的复制要比 scp 的速度快,rsync 只对差异文件做更新。scp 是把所有文件都复制过去。
➢ 基本语法:
	rsync -av $pdir/$fname $user@$host:$pdir/$fname
	命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
	其中
		-a 归档拷贝
		-v 显示复制过程
  1. 在hadoop103中,如果你执行了前面scp的操作,那么我们就可以对刚拷贝的文件做一些更改,然后通过rsync同步hadoop102的文件进行恢复
➢ 先进入hadoop-3.1.3的目录,然后删除wcinput文件夹
	[hadoop100@hadoop103 hadoop-3.1.3]$ rm -rf wcinput/
  1. 在hadoop102中,同步hadoop102的文件到hadoop103中
➢ 先进入hadoop-3.1.3所在目录下
➢ 下面的命令是,通过归档拷贝并且显示复制过程的方式
	将hadoop-3.1.3文件同步到hadoop103的文件中
rsync -av hadoop-3.1.3/ hadoop100@hadoop103:/opt/module/hadoop-3.1.3/

3、 集群分发脚本

循环复制文件到所有节点的相同目录下
我们希望脚本在任何路径下都能使用,所以将其放在声明了全局环境变量的路径
  1. 在/home/hadoop100/bin目录下创建xsync文件
    搭建学习大数据,需要的虚拟机Linux集群环境
[hadoop100@hadoop102 opt]$ cd /home/hadoop100
[hadoop100@hadoop102 ~]$ mkdir bin
[hadoop100@hadoop102 ~]$ cd bin
[hadoop100@hadoop102 bin]$ vim xsync
  1. 编写代码(直接复制下面代码过去,主要要先按i键进入插入模式,否则遇到复制内容的i字母才开始插入,linux粘贴命令shift+insert)
    搭建学习大数据,需要的虚拟机Linux集群环境

阅读用,不可直接使用,里面注释太多,想复制执行请复制下面内个版本

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ] # 判断参数是否小于1,$#表示获取参数个数,-lt表示小于
then # 条件为真执行
 echo Not Enough Arguement! # 提示没有参数
 exit; # 退出程序
fi # if结束
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do # 循环体 do和done是一对,标志循环体开始和结束
 echo ==================== $host ==================== # 打印 $host表示获取当前循环变量host的值
 #3. 遍历所有目录,挨个发送
 for file in $@ # 循环,遍历目录个数,$@表示传入的文件,比如a.txt b.txt挨个遍历
 do # 循环体
 #4. 判断文件是否存在
 if [ -e $file ] # 判断当前文件是否存在,-e表示判断是否存在
	 then #条件成立执行
		 #5. 获取父目录
		 # $file 表示获取当前文件名,$(dirname $file)表示获取执行dirname $file 的结果,保证无论是相对路径还是绝对路径,都获取到父目录
		 #-P表示如果刚刚获取的结果都是软连接,那么定位到真正的目录
		 #cd表示进入前面内容获取的目录
		 #pwd获取当前目录
		 #pdir=$(..)表示获取值给pdir
		 pdir=$(cd -P $(dirname $file); pwd)# 获取到当前文件父目录
		 #6. 获取当前文件的名称
		 fname=$(basename $file)# 获取当前文件名
		 #ssh $host,表示远程连接到当前循环的host主机,
		 #比如当前是hadoop103,那么就连接到hadoop103虚拟机
		 #"mkdir -p $pdir" 表示ssh连接后执行的语句,创建目录
		 ssh $host "mkdir -p $pdir" #远程连接目标主机,创建父目录
		 rsync -av $pdir/$fname $host:$pdir # 通过rsync同步文件
	 else # 条件失败执行
		 echo $file does not exists!
 fi
 done # for循环结束
done # for循环结束
#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
 echo Not Enough Arguement!
 exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
 echo ==================== $host ====================
 #3. 遍历所有目录,挨个发送
 for file in $@
 do
 #4. 判断文件是否存在
 if [ -e $file ]
 then
 #5. 获取父目录
 pdir=$(cd -P $(dirname $file); pwd)
 #6. 获取当前文件的名称
 fname=$(basename $file)
 ssh $host "mkdir -p $pdir"
 rsync -av $pdir/$fname $host:$pdir
 else
 echo $file does not exists!
 fi
 done
done
  1. 让脚本xsync具有执行权限
    搭建学习大数据,需要的虚拟机Linux集群环境
➢ chmod +x表示给执行权限,+x表示用其它颜色显示文件名,比如chmod +777就是绿色
[hadoop100@hadoop102 bin]$ chmod +x xsync
  1. 测试脚本
[hadoop100@hadoop102 ~]$ xsync /home/hadoop100/bin
  1. 将脚本复制到/bin中,以便全局使用,这个/bin是linux的不是现在home里的
[hadoop100@hadoop102 bin]$ sudo cp xsync /bin/
  1. 同步环境变量配置(root所有者)
    搭建学习大数据,需要的虚拟机Linux集群环境
➢ 注意:如果用了 sudo,那么 xsync 一定要给它的路径补全,
	因为sudo命令是由root来执行的,而我们xsync在hadoop100的home里面,
	root无法直接进去执行,只能通过./来搞一个绝对路径帮他找到
[hadoop100@hadoop102 ~]$ sudo ./bin/xsync /etc/profile.d/my_env.sh
  1. 让环境变量生效
    搭建学习大数据,需要的虚拟机Linux集群环境
[hadoop100@hadoop103 bin]$ source /etc/profile
[hadoop100@hadoop104 opt]$ source /etc/profile

2、 ssh免密登录(解决分发脚本每次都需要输入密码问题)

配置ssh,及其简单,直接介绍命令
➢ 基本语法,远程连接另一台服务器
	ssh 另一台电脑的 IP 地址
➢ ssh 连接时出现 Host key verification failed 的解决方法
	[atguigu@hadoop102 ~]$ ssh hadoop103
➢ 如果出现如下内容
	Are you sure you want to continue connecting (yes/no)?
	输入 yes,并回车
➢ 断开远程连接,回到自己的服务器
	[atguigu@hadoop103 ~]$ exit
无密钥配置
  1. 免密登录原理(设置一个私钥一个公钥,我们会把公钥分发给其它人,然后这些人会把公钥保存起来,私钥我们自己保密,我们每次建立连接,我先发给要连接对象一个使用私钥加密的数据,而连接对象,获取到加密数据,只有对应公钥可以解密,如果解密成功,说明可以建立连接,然后使用公钥再加密一份数据发送回去,我们接受到数据后,再用私钥解密,完成连接)
    搭建学习大数据,需要的虚拟机Linux集群环境
  2. 生成公钥和私钥
    搭建学习大数据,需要的虚拟机Linux集群环境
[hadoop100@hadoop102 .ssh]$ pwd /home/hadoop100/.ssh
[hadoop100@hadoop102 .ssh]$ ssh-keygen -t rsa
然后敲(三个回车),就会生成两个文件 id_rsa(私钥)、id_rsa.pub(公钥)
  1. 将公钥拷贝到需要免密登录的目标机器上
[hadoop100@hadoop102 .ssh]$ ssh-copy-id hadoop102
[hadoop100@hadoop102 .ssh]$ ssh-copy-id hadoop103
[hadoop100@hadoop102 .ssh]$ ssh-copy-id hadoop104
  1. hadoop103上使用hadoop100用户,也配置一些无密登录到hadoop102、103、104,同理hadoop104上也需要配置相同命令
  2. .ssh文件夹下(~/.ssh)的文件功能
    搭建学习大数据,需要的虚拟机Linux集群环境

四、集群配置

hadoop的3中运行模式,我们只介绍完全分布式

搭建学习大数据,需要的虚拟机Linux集群环境

完全分布式运行模式要求
我们前面已经做了前5步了
  1. 准备 3 台客户机(关闭防火墙、静态 IP、主机名称) 前面已做
  2. 安装 JDK 前面已做
  3. 配置环境变量 前面已做
  4. 安装 Hadoop 前面已做
  5. 配置环境变量 前面已做
  6. 配置集群
  7. 单点启动
  8. 配置 ssh
  9. 群起并测试集群
集群部署规划
  1. NameNode 和 SecondaryNameNode 不要安装在同一台服务器
  2. ResourceManager 也很消耗内存,不要和 NameNode、SecondaryNameNode 配置在同一台机器上。
  3. 如果你的机器非常厉害,可以无视上面两条,配在同一台服务器上搭建学习大数据,需要的虚拟机Linux集群环境
配置文件说明
Hadoop 配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值

搭建学习大数据,需要的虚拟机Linux集群环境

1、 配置文件

自定义配置文件位置

搭建学习大数据,需要的虚拟机Linux集群环境

核心配置core-site.xml

搭建学习大数据,需要的虚拟机Linux集群环境

[hadoop100@hadoop102 ~]$ cd $HADOOP_HOME/etc/hadoop
[hadoop100@hadoop102 hadoop]$ vim core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <!-- 指定 NameNode 的地址 -->
 <property>
  <name>fs.defaultFS</name>
  <value>hdfs://hadoop102:8020</value>
 </property>
 <!-- 指定 hadoop 数据的存储目录 -->
 <property>
  <name>hadoop.tmp.dir</name>
  <value>/opt/module/hadoop-3.1.3/data</value>
 </property>
 <!-- 配置 HDFS 网页登录使用的静态用户为 hadoop100 -->
 <property>
  <name>hadoop.http.staticuser.user</name>
  <value>hadoop100</value>
 </property>
</configuration>
HDFS配置hdfs-site.xml

搭建学习大数据,需要的虚拟机Linux集群环境

[hadoop100@hadoop102 hadoop]$ vim hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <!-- nn web 端访问地址-->
 <property>
  <name>dfs.namenode.http-address</name>
  <value>hadoop102:9870</value>
 </property>
<!-- 2nn web 端访问地址-->
 <property>
  <name>dfs.namenode.secondary.http-address</name>
  <value>hadoop104:9868</value>
 </property>
</configuration>
YARN配置yarn-site.xml

搭建学习大数据,需要的虚拟机Linux集群环境

[hadoop100@hadoop102 hadoop]$ vim yarn-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <!-- 指定 MR 走 shuffle -->
 <property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
 </property>
 <!-- 指定 ResourceManager 的地址-->
 <property>
  <name>yarn.resourcemanager.hostname</name>
  <value>hadoop103</value>
 </property>
 <!-- 环境变量的继承 -->
 <property>
  <name>yarn.nodemanager.env-whitelist</name>
  <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
 </property>
</configuration>
MapReduce配置mapred-site.xml

搭建学习大数据,需要的虚拟机Linux集群环境

[hadoop100@hadoop102 hadoop]$ vim mapred-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定 MapReduce 程序运行在 Yarn 上 -->
 <property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
 </property>
</configuration>
集群分发配置文件

搭建学习大数据,需要的虚拟机Linux集群环境

[hadoop100@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/
103和104中查看文件分发情况

搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境

[hadoop100@hadoop103 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
[hadoop100@hadoop104 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

2、 群起集群(刚刚都配置完了,现在该启动了)

配置workers
workers是告诉hadoop集群有几个节点,我们一共3个,就配置3个

搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境

➢ 配置workers
[hadoop100@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers
➢ 文件内容如下,注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。
hadoop102
hadoop103
hadoop104

➢ 同步所有节点配置文件
[hadoop100@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc
启动集群
  1. 如果集群是第一次启动,需要格式化NameNode

需要在 hadoop102 节点格式化 NameNode(注意:格式化 NameNode,会产生新的集群 id,导致 NameNode 和 DataNode 的集群 id 不一致,集群找不到已往数据。如果集群在运行过程中报错,需要重新格式化 NameNode 的话,一定要先停止 namenode 和 datanode 进程,并且要删除所有机器的 data 和 logs 目录,然后再进行格式化。
搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境

[hadoop100@hadoop102 hadoop-3.1.3]$ hdfs namenode -format
  1. 启动 HDFS
    搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境
[hadoop100@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh
  1. 在配置了 ResourceManager 的节点(hadoop103)启动 YARN
    搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境
[hadoop100@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh
  1. Web端查看HDFS的NameNode
  1. 浏览器输入http://hadoop102:9870
  2. 查看 HDFS 上存储的数据信息
    搭建学习大数据,需要的虚拟机Linux集群环境
  1. Web 端查看 YARN 的 ResourceManager
  1. 浏览器中输入:http://hadoop103:8088
  2. 查看 YARN 上运行的 Job 信息
集群基本测试(只需要跟着把1.上传文件到集群做了即可,其它的还没学的话,不好理解,了解一下就行
  1. 上传文件到集群
    搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境
➢ 上传小文件
[hadoop100@hadoop102 ~]$ hadoop fs -mkdir /input
[hadoop100@hadoop102 ~]$ hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input
➢ 上传大文件
[hadoop100@hadoop102 ~]$ hadoop fs -put /opt/software/jdk-8u212-linux-x64.tar.gz /
➢ 删除文件
[hadoop100@hadoop102 ~]$ hadoop fs -rm -r /input
  1. 文件上传后存储位置和HDFS 在磁盘存储文件的内容
➢ HDFS 文件存储路径
[hadoop100@hadoop102 subdir0]$ pwd
➢ 结果如下
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1436128598-
192.168.10.102-1610603650062/current/finalized/subdir0/subdir0

➢ HDFS 磁盘存储文件内容
[hadoop100@hadoop102 subdir0]$ cat 文件名
➢ 结果如下
hadoop yarn
hadoop mapreduce 
atguigu
atguigu
  1. 拼接(了解即可,下面文件是一个大文件的分卷压缩形式,我们通过cat命令拼接,然后tar命令解压就可以获取的原始的文件)
➢ 假设有如下文件
-rw-rw-r--. 1 hadoop100 hadoop100 134217728 5 月 23 16:01 blk_1073741836
-rw-rw-r--. 1 hadoop100 hadoop100 1048583 5 月 23 16:01 blk_1073741836_1012.meta
-rw-rw-r--. 1 hadoop100 hadoop100 63439959 5 月 23 16:01 blk_1073741837
-rw-rw-r--. 1 hadoop100 hadoop100 495635 5 月 23 16:01 blk_1073741837_1013.meta
➢ 拼接
[hadoop100@hadoop102 subdir0]$ cat blk_1073741836>>tmp.tar.gz
[hadoop100@hadoop102 subdir0]$ cat blk_1073741837>>tmp.tar.gz
[hadoop100@hadoop102 subdir0]$ tar -zxvf tmp.tar.gz
  1. 下载
[hadoop100@hadoop104 software]$ hadoop fs -get /jdk-8u212-linux-x64.tar.gz ./
  1. 执行wordcount程序
[hadoop100@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

3、 配置历史服务器

YARN执行后的任务,如果把页面关掉,再想回顾历史任务执行过程时无法回顾的,因为没有保存
为了解决问题,我们需要配置一台历史服务器
配置mapred-site.xml

搭建学习大数据,需要的虚拟机Linux集群环境

[hadoop100@hadoop102 hadoop]$ vim mapred-site.xml

➢ 在该文件里面增加如下配置。
<!-- 历史服务器端地址 -->
<property>
 <name>mapreduce.jobhistory.address</name>
 <value>hadoop102:10020</value>
</property>
<!-- 历史服务器 web 端地址 -->
<property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>hadoop102:19888</value>
</property>
分发脚本

搭建学习大数据,需要的虚拟机Linux集群环境

[hadoop100@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml
启动历史服务器
[hadoop100@hadoop102 hadoop]$ mapred --daemon start historyserver
查看是否启动成功

搭建学习大数据,需要的虚拟机Linux集群环境

[hadoop100@hadoop102 hadoop]$ jps
查看历史工作记录
http://hadoop102:19888/jobhistory

搭建学习大数据,需要的虚拟机Linux集群环境

4、配置日志聚集

日志聚集
应用运行完成以后,将程序运行日志信息上传到 HDFS 系统上

搭建学习大数据,需要的虚拟机Linux集群环境

配置 yarn-site.xml

搭建学习大数据,需要的虚拟机Linux集群环境

[hadoop100@hadoop102 hadoop]$ vim yarn-site.xml

➢ 在该文件里面增加如下配置。
<!-- 开启日志聚集功能 -->
<property>
 <name>yarn.log-aggregation-enable</name>
 <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property> 
 <name>yarn.log.server.url</name> 
 <value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为 7 天 -->
<property>
 <name>yarn.log-aggregation.retain-seconds</name>
 <value>604800</value>
</property>
分发配置

搭建学习大数据,需要的虚拟机Linux集群环境

[hadoop100@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml
关闭NodeManager、ResourceManager和HistoryServer

搭建学习大数据,需要的虚拟机Linux集群环境

[hadoop100@hadoop103 hadoop-3.1.3]$ sbin/stop-yarn.sh
[hadoop100@hadoop103 hadoop-3.1.3]$ mapred --daemon stop historyserver
重启被关闭的进程

搭建学习大数据,需要的虚拟机Linux集群环境

[hadoop100@hadoop103 ~]$ start-yarn.sh
[hadoop100@hadoop102 ~]$ mapred --daemon start historyserver

五、集群常用操作总结

1、整体启动和停止

➢ 各个模块分开启动/停止(配置 ssh 是前提)常用
	1)整体启动/停止 HDFS
		start-dfs.sh/stop-dfs.sh
	2)整体启动/停止 YARN
		start-yarn.sh/stop-yarn.sh
➢ 各个服务组件逐一启动/停止(比如HDFS有两个服务,上面命令是一次全启动,这个是启动指定的服务)
	1)分别启动/停止 HDFS 组件
		hdfs --daemon start/stop namenode/datanode/secondarynamenode
	2)启动/停止 YARN
		yarn --daemon start/stop resourcemanager/nodemanager

2、 Hadoop集群常用脚本

1、hadoop集群启停脚本(包含 HDFS,Yarn,Historyserver)

  1. 和xsync分发脚本放在一个文件夹
    搭建学习大数据,需要的虚拟机Linux集群环境
➢ 创建脚本
[hadoop100@hadoop102 ~]$ cd /home/hadoop100/bin
[hadoop100@hadoop102 bin]$ vim myhadoop.sh

➢ 编辑如下内容
#!/bin/bash
if [ $# -lt 1 ]
then
 echo "No Args Input..."
 exit ;
fi
case $1 in
"start")
 echo " =================== 启动 hadoop 集群 ==================="
 echo " --------------- 启动 hdfs ---------------"
 ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
 echo " --------------- 启动 yarn ---------------"
 ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
 echo " --------------- 启动 historyserver ---------------"
 ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
 echo " =================== 关闭 hadoop 集群 ==================="
 echo " --------------- 关闭 historyserver ---------------"
 ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
 echo " --------------- 关闭 yarn ---------------"
 ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
 echo " --------------- 关闭 hdfs ---------------"
 ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
 echo "Input Args Error..."
;;
esac

➢ 保存后退出,然后赋予脚本执行权限
[hadoop100@hadoop102 bin]$ chmod +x myhadoop.sh

➢ 执行
[hadoop100@hadoop102 bin]$ myhadoop.sh stop
[hadoop100@hadoop102 bin]$ myhadoop.sh start

2、 查看三台服务器 Java 进程脚本:jpsall

[hadoop100@hadoop102 ~]$ cd /home/hadoop100/bin
[hadoop100@hadoop102 bin]$ vim jpsall

#!/bin/bash
for host in hadoop102 hadoop103 hadoop104
do
 echo =============== $host ===============
 ssh $host jps 
done
➢ 保存后退出,然后赋予脚本执行权限
[hadoop100@hadoop102 bin]$ chmod +x jpsall
写完脚本记得同步
[hadoop100@hadoop102 ~]$ xsync /home/hadoop100/bin/

3、常用端口号和配置文件说明

搭建学习大数据,需要的虚拟机Linux集群环境
搭建学习大数据,需要的虚拟机Linux集群环境

4、集群时间同步(了解即可,不需要跟着配置)

  1. 如果服务器在公网环境(能连接外网),可以不采用集群时间同步,,因为服务器会定期和公网时间进行校准;
  2. 如果服务器在内网环境,必须要配置集群时间同步,否则时间久了,会产生时间偏差,导致集群执行任务时间不同步。
解决方案
  1. 找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,
  2. 生产环境根据任务对时间的准确程度要求周期同步。测试环境为了尽快看到效果,采用 1 分钟同步一次
    搭建学习大数据,需要的虚拟机Linux集群环境
时间服务器配置(必须root用户配置)

1.查看所有节点 ntpd 服务状态和开机自启动状态

[hadoop100@hadoop102 ~]$ sudo systemctl status ntpd
[hadoop100@hadoop102 ~]$ sudo systemctl start ntpd
[hadoop100@hadoop102 ~]$ sudo systemctl is-enabled ntpd
  1. 修改hadoop102的ntp.conf配置文件
[hadoop100@hadoop102 ~]$ sudo vim /etc/ntp.conf

➢ 1:授权 192.168.10.0-192.168.10.255 网段上的所有机器可以从这台机器上查询和同步时间
	修改 #restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
	为 restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap

➢ 2:集群在局域网中,不使用其他互联网上的时间
	修改
		server 0.centos.pool.ntp.org iburst
		server 1.centos.pool.ntp.org iburst
		server 2.centos.pool.ntp.org iburst
		server 3.centos.pool.ntp.org iburst
	为
		#server 0.centos.pool.ntp.org iburst
		#server 1.centos.pool.ntp.org iburst
		#server 2.centos.pool.ntp.org iburst
		#server 3.centos.pool.ntp.org iburst
➢ 3:当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步
	添加如下内容
		server 127.127.1.0
		fudge 127.127.1.0 stratum 10
  1. 修改hadoop102的/etc/sysconfig/ntpd文件
[hadoop100@hadoop102 ~]$ sudo vim /etc/sysconfig/ntpd

➢ 1:让硬件时间与系统时间一起同步
	增加如下内容
		SYNC_HWCLOCK=yes
➢ 2:重启ntpd服务
	[hadoop100@hadoop102 ~]$ sudo systemctl start ntpd
➢ 3:设置 ntpd 服务开机启动
	[hadoop100@hadoop102 ~]$ sudo systemctl enable ntpd
  1. 其它机器配置(必须root用户)
➢ 1:关闭所有节点上 ntp 服务和自启动
	[hadoop100@hadoop103 ~]$ sudo systemctl stop ntpd
	[hadoop100@hadoop103 ~]$ sudo systemctl disable ntpd
	[hadoop100@hadoop104 ~]$ sudo systemctl stop ntpd
	[hadoop100@hadoop104 ~]$ sudo systemctl disable ntpd
➢ 2:在其他机器配置 1 分钟与时间服务器同步一次
	[hadoop100@hadoop103 ~]$ sudo crontab -e
	编写定时任务如下:
	*/1 * * * * /usr/sbin/ntpdate hadoop102
➢ 3:修改任意机器时间
	[hadoop100@hadoop103 ~]$ sudo date -s "2021-9-11 11:11:11"
➢ 4:1 分钟后查看机器是否与时间服务器同步
	[hadoop100@hadoop103 ~]$ sudo date

六、常见错误以及解决办法

低级错误

搭建学习大数据,需要的虚拟机Linux集群环境

集群id不一致问题

搭建学习大数据,需要的虚拟机Linux集群环境

系统因素导致

搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境搭建学习大数据,需要的虚拟机Linux集群环境

上一篇:Hadoop 群起集群并进行基本测试


下一篇:张三和你面试——开篇