《Hadoop与大数据挖掘》一2.2.2　环境配置

2021-12-27 07:37:39

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章，第2.2.2节，张良均　樊　哲　位文超　刘名军许国杰　周　龙　焦正升　著更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2.2　环境配置

1.安装JDK
（1）文件下载
到www.oracle.com网站上下载自己系统对应JDK版本。文件名如jdk-7u-linux-x64.tar.gz，注意下载64位的版本。

（2）解压文件
把下载下来的文件上传到Linux机器，并解压缩到某个路径下，如/usr/local目录。

mv jdk-7u<version>-linux-x64.tar.gz /usr/ local
tar zxvf jdk-7u<version>-linux-x64.tar.gz

（3）配置Java环境变量
编辑/etc/profile文件，在末尾加上Java配置，如代码清单2-1所示。

代码清单2-1　Java环境变量
#set Java environment
JAVA_HOME=/usr/local/jdk1.7.0_67
PATH=$JAVA_HOME/bin:$PATH
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME
export PATH
export CLASSPATH

2.配置ssh无密码登录
1）生成公钥和私钥，执行ssh-keygen –t rsa，接着按3次Enter键即可，如代码清单2-2所示。

代码清单2-2　ssh无密码登录配置
[root@master opt]# ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): 
Created directory '/root/.ssh'.
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
22:ec:f0:b6:2b:dc:54:d6:4f:ae:a0:a8:e6:3d:55:84 root@master
The key's randomart image is:
+--[ RSA 2048]----+
|      .          |
|     E .         |
|      ..         |
|   .  o.. .      |
|  . ooo S+       |
|   +.o..  o      |
| . +=. . .       |
| .=oo.  .        |
|+o o+.           |
+-----------------+

在~/.ssh目录生成两个文件，id_rsa为私钥，id_rsa.pub为公钥。
2）设置hosts文件。在/etc/hosts文件中配置IP与HOSTNAME的映射（IP根据自己机器情况设置），如代码清单2-3所示。

代码清单2-3　hosts文件配置
192.168.0.130 master.centos.com master
192.168.0.131 slave1.centos.com slave1
192.168.0.132 slave2.centos.com slave2
192.168.0.133 slave3.centos.com slave3

3）导入公钥到认证文件，执行ssh-copy-id命令，如代码清单2-4所示。

代码清单2-4　导入公钥
[root@centos67 opt]# ssh-copy-id -i /root/.ssh/id_rsa.pub master
The authenticity of host 'master (192.168.0.130)' can't be established.
RSA key fingerprint is 09:7a:e4:ad:28:ce:ac:b6:0f:ea:99:82:fa:62:25:96.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'master,192.168.0.130' (RSA) to the list of known hosts.
root@master's password: 
Now try logging into the machine, with "ssh 'master'", and check in:
    .ssh/authorized_keys
to make sure we haven't added extra keys that you weren't expecting

接着分别执行：

ssh-copy-id -i /root/.ssh/id_rsa.pub slave1
ssh-copy-id -i /root/.ssh/id_rsa.pub slave2
ssh-copy-id -i /root/.ssh/id_rsa.pub slave3

即可导入公钥到其他所有子节点。
4）验证。打开终端，直接输入ssh master、ssh slave1、ssh slave2、ssh slave3，如果可直接登录，而不需要输入密码，则ssh无密码登录配置成功。

[root@master ~]# ssh master
Last login: Tue Nov  3 18:39:41 2015 from 192.168.0.1

3.配置NTP
配置NTP主要是为了进行集群间的时间同步，需要注意在master、slave1、slave2、slave3节点分别执行“yum install ntp”，即可安装该软件。
假设将Master节点作为NTP服务主节点，那么其配置（修改/etc/ntp.conf文件）如代码清单2-5所示。
**代码清单2-5　NTP主节点配置

注释掉server开头的行，并添加

restrict 192.168.0.0 mask 255.255.255.0 nomodify notrap

server 127.127.1.0**
fudge 127.127.1.0 stratum 10

在slave1~slave3配置NTP，同样修改/etc/ntp.conf文件，内容如代码清单2-6所示。

代码清单2-6　NTP从节点配置
#注释掉server开头的行，并添加
 server master

在master、slave1、slave2、slave3节点执行“service ntpd start &chkconfig ntpd on”，即可启动并永久启动NTP服务。
4.配置Hadoop集群
上传Hadoop安装包到master机器，并解压缩到/usr/local目录，使用代码：

tar -zxf hadoop-2.6.0.tar.gz -C /usr/local

Hadoop配置涉及的配置文件有以下7个：

$HADOOP_HOME/etc/hadoop/hadoop-env.sh
$HADOOP_HOME/etc/hadoop/yarn-env.sh
$HADOOP_HOME /etc/hadoop/slaves
$HADOOP_HOME /etc/hadoop/core-site.xml
$HADOOP_HOME/etc/hadoop/hdfs-site.xml
$HADOOP_HOME/etc/hadoop/mapred-site.xml
$HADOOP_HOME /etc/hadoop/yarn-site.xml

各个配置文件修改如下所示。
1）配置文件1：hadoop-env.sh。
该文件是Hadoop运行基本环境的配置，需要修改为JDK的实际位置。故在该文件中修改JAVA_HOME值为本机安装位置，如代码清单2-7所示。

代码清单2-7　hadoop-env.sh配置
# some Java parameters
export JAVA_HOME=/usr/local/jdk1.7.0_67

2）配置文件2：yarn-env.sh。
该文件是YARN框架运行环境的配置，同样需要修改Java所在位置。在该文件中修改JAVA_HOME值为本机安装位置，如代码清单2-8所示。

代码清单2-8　yarn-env.sh配置
# some Java parameters
export JAVA_HOME=/usr/local/jdk1.7.0_67

3）配置文件3：slaves。
该文件里面保存所有slave节点的信息，如代码清单2-9所示。

代码清单2-9　slaves配置
slave1
slave2
slave3

4）配置文件4：core-site.xml，配置内容如代码清单2-10所示。

代码清单2-10　core-site.xml配置
  <configuration>
<property>
       <name>fs.defaultFS</name>
            <value>hdfs://master:8020</value>
    </property>
<property>
       <name>hadoop.tmp.dir</name>
       <value>/var/log/hadoop/tmp</value>
  </property>
  </configuration>

这个是Hadoop的核心配置文件，这里需要配置两个属性：fs.defaultFS配置了Hadoop的HDFS系统的命名，位置为主机的8020端口，这里需要注意替换hdfs://master:8020，中的斜体master，该名字为NameNode所在机器的机器名；hadoop.tmp.dir配置了Hadoop的临时文件的位置。
5）配置文件5：hdfs-site.xml，配置内容如代码清单2-11所示。

代码清单2-11　hdfs-site.xml配置
<configuration>
<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:///data/hadoop/hdfs/name</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <value>file:///data/hadoop/hdfs/data</value>
</property>
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>master:50090</value>
</property>
<property>
    <name>dfs.replication</name>
    <value>3</value>
</property>
</configuration>

这个是HDFS相关的配置文件，dfs.namenode.name.dir和dfs.datanode.data.dir分别指定了NameNode元数据和DataNode数据存储位置；dfs.namenode.secondary.http-address配置的是SecondaryNameNode的地址，同样需要注意修改“master”为实际Secondary-NameNode地址；dfs.replication配置了文件块的副本数，默认就是3个，所以这里也可以不配置。
6）配置文件6：mapred-site.xml，配置内容如代码清单2-12所示。

代码清单2-12　mapred-site.xml配置
<configuration>
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>
<!-- jobhistory properties -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>master:10020</value>
</property>
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>master:19888</value>
</property>
</configuration>

这个是MapReduce相关的配置，由于Hadoop2.x使用了YARN框架，所以必须在ma-preduce.framework.name属性下配置yarn。mapreduce.jobhistory.address和mapreduce.job-history.webapp.address是与JobHistoryServer相关的配置，即运行MapReduce任务的日志相关服务，这里同样需要注意修改“master”为实际服务所在机器的机器名。
7）配置文件7：yarn-site.xml，配置内容如代码清单2-13所示。

代码清单2-13　yarn-site.xml配置
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
  </property>
  <property>
      <name>yarn.resourcemanager.address</name>
      <value>${yarn.resourcemanager.hostname}:8032</value>
  </property>
  <property>
      <name>yarn.resourcemanager.scheduler.address</name>
      <value>${yarn.resourcemanager.hostname}:8030</value>
  </property>
  <property>
      <name>yarn.resourcemanager.webapp.address</name>
      <value>${yarn.resourcemanager.hostname}:8088</value>
  </property>
  <property>
      <name>yarn.resourcemanager.webapp.https.address</name>
      <value>${yarn.resourcemanager.hostname}:8090</value>
  </property>
  <property>
      <name>yarn.resourcemanager.resource-tracker.address</name>
      <value>${yarn.resourcemanager.hostname}:8031</value>
  </property>
  <property>
      <name>yarn.resourcemanager.admin.address</name>
      <value>${yarn.resourcemanager.hostname}:8033</value>
  </property>
  <property>
      <name>yarn.nodemanager.local-dirs</name>
      <value>/data/hadoop/yarn/local</value>
  </property>
  <property>
      <name>yarn.log-aggregation-enable</name>
      <value>true</value>
  </property>
  <property>
      <name>yarn.nodemanager.remote-app-log-dir</name>
      <value>/data/tmp/logs</value>
  </property>
<property> 
     <name>yarn.log.server.url</name> 
     <value>http://master:19888/jobhistory/logs/</value>
     <description>URL for job history server</description>
</property>
<property>
     <name>yarn.nodemanager.vmem-check-enabled</name>
     <value>false</value>
  </property>
 <property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
  </property>
  <property>
       <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
       <value>org.apache.hadoop.mapred.ShuffleHandler</value>
       </property>
</configuration>

该文件为YARN框架的配置，在最开始命名了一个名为yarn.resourcemanager.hostname的变量，这样在后面YARN的相关配置中就可以直接引用该变量了。其他配置保持不变即可。
将配置好的Hadoop复制到其他节点，直接执行如代码清单2-14所示命令即可（注意，本文使用的从节点名字是slave1、slave2、slave3，读者可根据自己机器实际情况修改）。

代码清单2-14　拷贝Hadoop安装包到其他子节点
scp -r /usr/local/hadoop-2.6.0/ slave1:/usr/local/
scp -r /usr/local/hadoop-2.6.0/ slave2:/usr/local/
scp -r /usr/local/hadoop-2.6.0/ slave3:/usr/local/

5.格式化NameNode
做完Hadoop的所有配置后，即可执行格式化NameNode操作。该操作会在NameNode所在机器初始化一些HDFS的相关配置，其命令如代码清单2-15所示。
代码清单2-15　格式化NameNode
$HADOOP_HOME/bin/hdfs namenode -format
若出现“Storage directory /data/hadoop/hdfs/name has been successsully formatted”的提示，则格式化成功（注意，/data/hadoop/hdfs/name目录就是前面配置的dfs.namenode.name.dir的值）。

码农公寓

2.2.2 环境配置

注释掉server开头的行，并添加

相关文章

2.2.2　环境配置