Zookeeper + Hadoop2.6 集群HA + spark1.6完整搭建与所有参数解析

2022-07-14 20:48:52

废话就不多说了，直接开始啦~

安装环境变量:

使用linx下的解压软件,解压找到里面的install 或者 ls 运行这个进行安装

yum install gcc

yum install gcc-c++

安装make，这个是自动编译源码的工具

yum install make

yum install autoconfautomake libtool cmake

封装了底层的终端功能

yum install ncurses-devel

OpenSSL是一个软件包，用于支持SSL传输协议的软件包

yum install openssl-devel

git就不用多说了

yum install git git-svn git-email git-gui gitk

安装protoc(需用root用户), 作用是把某种数据结构的信息，以某种格式保存起来。主要用于数据存储、传输协议格式等

1 tar -xvf protobuf-2.5.0.tar.bz2

2 cd protobuf-2.5.0

3 ./configure --prefix=/opt/protoc/

4 make && make install

安装wget (以后备用~)

sudo yum -y install wget

二、增加用户组

groupadd hadoop 添加一个组

useradd hadoop -g hadoop 添加用户

三、编译hadoop

mvn clean package -Pdist,native -DskipTests -Dtar

编译完的hadoop在 /home/hadoop/ocdc/hadoop-2.6.0-src/hadoop-dist/target 路径下

四、各节点配置hosts文件 vi/etc/hosts

10.1.245.244 master

10.1.245.243 slave1

10.1.245.242 slave2

命令行输入 hostname master

ssh到其他主机相应输入 hostName xxxx

五、各节点免密码登录：

各节点免密码登录

ssh-keygen -t rsa

cd /root/.ssh/

ssh-copy-id master

将生成的公钥id_rsa.pub 内容追加到authorized_keys（执行命令：cat id_rsa.pub >> authorized_keys）

时间等效性同步

ssh master date; ssh slave1 date;ssh slave2 date;

六、hadoop路径下创建相应目录（namenode,datenode 等信息存放处）

Mkdir data

(在data路径下创建目录)

mkdir yarn

mkdir jn

mkdir current

(hadoop路径下)

mkdir name

(jn目录下)

mkdir streamcluster

七、Zookeeper集群配置:

解压zookeeper

Tar zxvf zookeeper-3.4.6.tar.gz

修改temp文件为可用

Cp zoo_sample.cfg zoo.cfg

修改zoo.cfg文件:

# The number of milliseconds of each tick

tickTime=2000

# The number of ticks that the initial

# synchronization phase can take

initLimit=10

# The number of ticks that can pass between

# sending a request and getting an acknowledgement

syncLimit=5

# the directory where the snapshot is stored.

# do not use /tmp for storage, /tmp here is just

# example sakes.

dataDir=/home/hadoop/ocdc/zookeeper-3.4.6/data

dataLogDir=/home/hadoop/ocdc/zookeeper-3.4.6/logs

# the port at which the clients will connect

clientPort=2183

# the maximum number of client connections.

# increase this if you need to handle more clients

#maxClientCnxns=60

# Be sure to read the maintenance section of the

# administrator guide before turning on autopurge.

# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance

# The number of snapshots to retain in dataDir

#autopurge.snapRetainCount=3

# Purge task interval in hours

# Set to "0" to disable auto purge feature

#autopurge.purgeInterval=1

#写入节点ip与端口

server.1=master:2898:3898

server.2=slave1:2898:3898

server.3=slave2:2898:3898

在zookeeper目录下:

mkdir data

vi myid （写入id为1,）

拷贝zookeeper到各个目录下（将slave1中的myid改为2，slave2中的myid改为3....）

随后在 bin目录下逐个启动zookeeper

./zkServer.sh start

./zkServer.sh status (查看状态)

八、hadoop相关配置文件及参数说明

core-site.xml

默认文件系统的名称,如果是HA模式，不加端口

<name>fs.defaultFS</name>

<value>hdfs:// streamcluster </value>

</property>

io.file.buffer.size都被用来设置缓存的大小,较大的缓存可以提供高效的数据传输，但太大也会造成更大的内存消耗和延迟

<name>io.file.buffer.size</name>

</property>

hadoop文件系统依赖的基本配置，很多配置路径都依赖它，它的默认位置在/tmp/{$user}下面

<name>hadoop.tmp.dir</name>

<value>/home/hadoop/ocdc/hadoop-2.6.0/tmp</value>

<description>Abasefor other temporary directories.</description>

</property>

<name>hadoop.proxyuser.spark.hosts</name>

</property>

<name>hadoop.proxyuser.spark.groups</name>

</property>

</configuration>

hdfs-site.xml

集群的逻辑名，要注意的是，如果为HA模式，需要与core-site.xml中的fs.defaultFS名一致

<name>dfs.nameservices</name>

<value>streamcluster</value>

</property>

datanode的端口，运行tcp/ip服务器以支持块传输，默认为0.0.0.0:50010

<name>dfs.datanode.address</name>

</property>

datanode的http服务器地址和端口

<name>dfs.datanode.http.address</name>

</property>

datanode的rpc服务器的地址和端口, 提供进程间交互通信

<name>dfs.datanode.ipc.address</name>

</property>

dfs.ha.namenodes.[nameservice ID]在名称服务中每一个nameNode的唯一标识符,streamcluster为之前配置的nameservice的名称,这里配置高可用，所以配置两个NN

<name>dfs.ha.namenodes.streamcluster</name>

</property>

由namenode存储元数据的目录地址

<name>dfs.namenode.name.dir</name>

<value>/home/hadoop/ocdc/hadoop-2.6.0/name</value>

</property>

由datanode存放数据块的目录列表

<name>dfs.datanode.data.dir</name>

<value>/home/hadoop/ocdc/hadoop-2.6.0/data</value>

</property>

由写操作所需要创建的最小副本数目

<name>dfs.replication</name>

</property>

如果是 true，则打开权限系统

<name>dfs.permission</name>

</property>

设置成true, 通过知道每个block所在磁盘，可以在调度cpu资源时让不同的cpu读不同的磁盘，避免查询内和查询间的IO竞争

<name>dfs.datanode.hdfs-blocks-metadata.enabled</name>

</property>

是否在HDFS中开启权限检查。

<name>dfs.permissions.enabled</name>

<value>false</value>

</property>

HA模式下该参数为streamcluster中namenode1节点对外服务的RPC地址

<name>dfs.namenode.rpc-address.streamcluster.nn1</name>

<value>master:8033</value>

</property>

HA模式下该参数为streamcluster中namenode1节点对外服务的RPC地址

<name>dfs.namenode.rpc-address.streamcluster.nn2</name>

<value>slave1:8033</value>

</property>

HA模式下该参数为streamcluster中namenode1节点对外服务的HTTP地址

<name>dfs.namenode.http-address.streamcluster.nn1</name>

<value>master:50083</value>

</property>

HA模式下该参数为streamcluster中namenode1节点对外服务的HTTP地址

<name>dfs.namenode.http-address.streamcluster.nn2</name>

<value>slave1:50083</value>

</property>

设置的为journalNode的地址，Activity状态中的Namenode会将edits的Log写入JournalNode，而standby状态中的Namenode会读取这些edits log.

<name>dfs.namenode.shared.edits.dir</name>

<value>qjournal://master:8489;slave1:8489;slave2:8489/streamcluster</value>

</property>

JournalNode 所在节点上的一个目录，用于存放 editlog 和其他状态信息。

<name>dfs.journalnode.edits.dir</name>

<value>/home/hadoop/ocdc/hadoop-2.6.0/data/jn</value>

</property>

journalNode RPC服务地址和端口

<name>dfs.journalnode.rpc-address</name>

</property>

journalNode HTTP服务地址和端口

<name>dfs.journalnode.http-address</name>

</property>

此参数为客户端与activity状态下的Namenode进行交互的java实现类，DFS客户端通过该类寻找当前activity的Namenode

<name>dfs.client.failover.proxy.provider.streamcluster</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>

使HA模式下不会同时出现两个master，不允许出现两个activity状态下的Namenode

<name>dfs.ha.fencing.methods</name>

<value>shell(/bin/true)</value>

</property>

SSH的超时时间设置,倘若超过此时间，则认为执行失败.

<name>dfs.ha.fencing.ssh.connect-timeout</name>

</property>

指定streamcluster的两个NameNode共享edits文件目录时，使用的JournalNode集群信息

<name>dfs.ha.automatic-failover.enabled</name>

</property>

每个datanode任一时刻可以打开的文件数量上限。

<name>dfs.datanode.max.xcievers</name>

</property>

DataNode传送数据出入的最大线程数,等同于dfs.datanode.max.xcievers。

<name>dfs.datanode.max.transfer.threads</name>

</property>

块的字节大小

<name>dfs.blocksize</name>

</property>

一般原则是将其设置为集群大小的自然对数乘以20，即20logN, NameNode有一个工作线程池用来处理客户端的远程过程调用及集群守护进程的调用。处理程序数量越多意味着要更大的池来处理来自不同DataNode的并发心跳以及客户端并发的元数据操作。

<name>dfs.namenode.handler.count</name>

</property>

<name>ha.zookeeper.quorum</name>

<value>master:2183,slave1:2183,slave2:2183</value>

</property>

</configuration>

yarn-site.xml

NodeManager的心跳间隔

<name>yarn.resourcemanager.connect.retry-interval.ms</name>

</property>

是否启用RM HA，默认为false（不启用）。这里设置为启用。

<name>yarn.resourcemanager.ha.enabled</name>

</property>

是否启用自动故障转移。默认情况下，在启用HA时，启用自动故障转移。

<name>yarn.resourcemanager.ha.automatic-failover.enabled</name>

</property>

启用内置的自动故障转移。默认情况下，在启用HA时，启用内置的自动故障转移。

<name>yarn.resourcemanager.ha.automatic-failover.embedded</name>

</property>

集群的ID，确保ResourceManager不会为成为其他集群的Activity活跃状态。

<name>yarn.resourcemanager.cluster-id</name>

<value>yarn-rm-cluster</value>

</property>

HA下两个ResourceManager的逻辑名称

<name>yarn.resourcemanager.ha.rm-ids</name>

</property>

用于标识ResourceManager,这里要注意一点，HA备用的RM的服务器需要修改为rm2

<name>yarn.resourcemanager.ha.id</name>

</property>

启用重启ResourceManager的功能，默认为false

<name>yarn.resourcemanager.recovery.enabled</name>

</property>

用于状态存储的类,可以设置为

org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemRMStateStore，基于Hadoop文件系统的实现，这里的设置是基于ZooKeeper的实现

<name>yarn.resourcemanager.store.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>

</property>

存储RM状态的ZooKeeper Znode全路径。

<name>yarn.resourcemanager.zk.state-store.address</name>

<value>master:2183,slave1:2183,slave2:2183</value>

</property>

被RM用于状态存储的ZooKeeper服务器的主机:端口号

<name>yarn.resourcemanager.zk-address</name>

<value>master:2183,slave1:2183,slave2:2183</value>

</property>

Scheduler失联等待的时间

<name>yarn.app.mapreduce.am.scheduler.connection.wait.interval-ms</name>

</property>

ResourceManager1的地址和端口

<name>yarn.resourcemanager.address.rm1</name>

<value>master:23140</value>

</property>

ResourceManager1调度器地址：端口

<name>yarn.resourcemanager.scheduler.address.rm1</name>

<value>master:23130</value>

</property>

ResourceManager 1对外web ui地址。可通过该地址在浏览器中查看集群各类信息。

<name>yarn.resourcemanager.webapp.address.rm1</name>

<value>master:23188</value>

</property>

NodeManager通过该地址向ResourceManager1汇报心跳，领取任务等的地址。

<name>yarn.resourcemanager.resource-tracker.address.rm1</name>

<value>master:23125</value>

</property>

ResourceManager 1对管理员暴露的访问地址。管理员通过该地址向RM发送管理命令等。

<name>yarn.resourcemanager.admin.address.rm1</name>

<value>master:23141</value>

</property>

<name>yarn.resourcemanager.ha.admin.address.rm1</name>

<value>master:23142</value>

</property>