Hadoop完全分布式运行模式搭建之基础安装

一、JDK 配置

Hadoop 运行需要依赖于 JDK 环境,下载好 Linux 版并解压到 /opt/module/jdk1.8.0_212 里  
tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/ 

然后为 JDK 设置环境变量,在 /etc/profile.d 下新建 my_env.sh,写入如下内容: 

#JAVA_HOME 
export JAVA_HOME=/opt/module/jdk1.8.0_212 
export PATH=$PATH:$JAVA_HOME/bin

最后执行  source /etc/profile  使得环境变量生效即可

二、Hadoop 安装

https://hadoop.apache.org/releases.html 下载合适的版本,解压到 /opt/module/hadoop-3.1.3 里
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/ 

在 my_env.sh 继续写入如下

#HADOOP_HOME 
export HADOOP_HOME=/opt/module/hadoop-3.1.3 
export PATH=$PATH:$HADOOP_HOME/bin 
export PATH=$PATH:$HADOOP_HOME/sbin

最后执行  source /etc/profile  使得环境变量生效即可

三、将环境分发到集群的所有机器

面对大量的机器,对每台分别进行环境的安装是不现实的,因此我们使用脚本进行批量拷贝到所有服务器。

1.scp(secure copy)安全拷贝

scp 可以实现服务器与服务器之间的数据拷贝。 -r 表示递归的将某个目录传输
  • 将 JDK 拷贝到另一台主机
scp -r jdk1.8.0_212/ aitw@hadoop103:/opt/module/
  • 在hadoop103 上将 hadoop102的文件拷贝到 hadoop104
scp -r aitw@hadoop102:/opt/module/* aitw@hadoop104:/opt/module/

2.rsync 远程同步工具

rsync 主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。 rsync 和 scp 区别:用 rsync 做文件的复制要比 scp 的速度快,rsync 只对差异文件做更新。scp 是把所有文件都复制过去。
rsync -av hadoop-3.1.3/ aitw@hadoop103:/opt/module/hadoop-3.1.3/ 

 

4.SSH 无密登录配置

在使用 scp 或 rsync 时,每次都会要求登录目标主机,这是非常繁琐的,因此我们可以配置 SSH 的公钥进行免密登录。一共两步:

  • 在A主机执行以下命令并按3次回车:
ssh-keygen -t rsa
  • 将A主机生成的 id_rsa.pub 文件内容发送到B主机
ssh-copy-id hadoop103
  • 然后在B主机直接登录到A主机
ssh username@HostB

上一篇:Linux scp命令


下一篇:【转】03.Dicom 学习笔记-DICOM C-Get 消息服务