一、hadoop环境搭建:
1. hadoop 6个核心配置文件的作用:
core-site.xml:核心配置文件,主要定义了我们文件访问的格式 hdfs://
hadoop-env.sh:主要配置我们的java路径
hdfs-site.xml:主要定义配置我们的hdfs的相关配置
mapred-site.xml 主要定义我们的mapreduce相关的一些配置
slaves:控制我们的从节点在哪里,datanode nodemanager在哪些机器上
yarn-site.xml:配置我们的resourcemanager资源调度
二、hadoop启动:
前提:完全分布式环境下:
192.168.1.100 |
192.168.1.110 |
192.168.1.120 |
|
zookeeper |
zk |
zk |
zk |
HDFS |
JournalNode |
JournalNode |
JournalNode |
NameNode |
NameNode |
||
ZKFC |
ZKFC |
||
DataNode |
DataNode |
DataNode |
|
YARN |
ResourceManager |
ResourceManager |
|
NodeManager |
NodeManager |
NodeManager |
|
MapReduce |
JobHistoryServer |
1.三台机器上都执行该命令,启动zk:zkServer.sh start
2.启动HDFS过程
node01上执行:
cd /export/servers/hadoop-2.7.5
bin/hdfs zkfc -formatZK
sbin/hadoop-daemons.sh start journalnode
bin/hdfs namenode -format
bin/hdfs namenode -initializeSharedEdits -force
sbin/start-dfs.sh
node02上面执行:
cd /export/servers/hadoop-2.7.5
bin/hdfs namenode -bootstrapStandby
sbin/hadoop-daemon.sh start namenode
3.启动yarn过程
node03上面执行:
cd /export/servers/hadoop-2.7.5
sbin/start-yarn.sh
node02上执行:
cd /export/servers/hadoop-2.7.5
sbin/start-yarn.sh
查看resourceManager状态
node03上面执行
cd /export/servers/hadoop-2.7.5
bin/yarn rmadmin -getServiceState rm1
node02上面执行:
cd /export/servers/hadoop-2.7.5
bin/yarn rmadmin -getServiceState rm2
node03启动jobHistory
node03机器执行以下命令启动jobHistory
cd /export/servers/hadoop-2.7.5
sbin/mr-jobhistory-daemon.sh start historyserver
停止hadoop
cd /export/servers/hadoop-2.7.5
sbin/stop-dfs.sh
sbin/stop-yarn.sh
sbin/mr-jobhistory-daemon.sh stop historyserver
sbin/hadoop-daemon.sh stop journalnode
注意:
1.bin/hdfs namenode -format该命令仅执行一次,以后尽量不要执行,因为一执行,则所有数据都丢失!
2.hadoop完全分布式环境下,hadoop启动前,必须在三台机器上都启动ZK。
3.sbin/hadoop-daemons.sh [ start | stop ] journalnode 一次同时启动/停止所有机器,sbin/hadoop-daemon.sh [ start | stop ] journalnode 一次只能启动/停止一台机器(当前机器)
三、hadoop管理界面查看:
http://192.168.52.100:50070/dfshealth.html#tab-overview 查看hdfs
http://node01:8088/cluster 查看yarn集群
http://node01:19888/jobhistory 查看历史完成的任务