离线安装Cloudera Manager 5和CDH5

关于CDH和Cloudera Manager

CDH (Cloudera's Distribution, including Apache Hadoop),是Cloudera 完全开源的Hadoop 分布式系统架构,为了满足企业的需求而特别构建的系统。即一个开源的企业级分布式存储系统。

CDH是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。

hadoop是一个开源项目,所以很多公司在这个基础进行商业化,Cloudera对hadoop做了相应的封闭改变。Cloudera公司的发行版,我们将该版本称之为CDH。

Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机、Hadoop、Hive、Spark等服务的安装配置管理做了极大简化。

离线安装Cloudera Manager 5和CDH5

系统环境

  • 实验环境:VMware虚拟机
  • 操作系统:CentOS 6.5 x64 (至少内存2G以上)
  • Cloudera Manager:5.3.2
  • CDH: 5.3.2

相关目录说明:

CDH安装完成后,Hadoop各组件配置文件放置于/var/run/cloudera-scm-agent/process/目录下。
例如:/var/run/cloudera-scm-agent/process/193-hdfs-NAMENODE/core-site.xml。这些配置文件是通过Cloudera Manager启动相应服务(如HDFS)时生成的,内容从数据库中获得(即通过界面配置的参数)
  • /var/log/cloudera-scm-installer : 安装日志目录。
  • /var/log/* : 相关日志文件(相关服务的及CM的)。
  • /usr/share/cmf/ : 程序安装目录。
  • /usr/lib64/cmf/ : Agent程序代码。
  • /var/lib/cloudera-scm-server-db/data : 内嵌数据库目录。
  • /usr/bin/postgres : 内嵌数据库程序。
  • /etc/cloudera-scm-agent/ : agent的配置目录。

/etc/cloudera-scm-agent/config.ini  是agent主配置文件

vim /etc/cloudera-scm-agent/config.ini +3

server_host= 主节点IP

  • /etc/cloudera-scm-server/ : server的配置目录。
  • /opt/cloudera/parcels/ : Hadoop相关服务安装目录。
  • /opt/cloudera/parcel-repo/ : 下载的服务软件包数据,数据格式为parcels。
  • /opt/cloudera/parcel-cache/ : 下载的服务软件包缓存数据。
  • /etc/hadoop/* : 客户端配置文件目录

安装说明

官方参考文档:
http://www.cloudera.com/content/cloudera/en/documentation/cloudera-manager/v5-latest/Cloudera-Manager-Installation-Guide/cm5ig_install_path_C.html

官方共给出了3中安装方式:第一种方法必须要求所有机器都能连网,由于最近各种国外的网站被墙的厉害,我尝试了几次各种超时错误,巨耽误时间不说,一旦失败,重装非常痛苦。第二种方法下载很多包。第三种方法对系统侵入性最小,最大优点可实现全离线安装,而且重装什么的都非常方便。后期的集群统一包升级也非常好。这也是我之所以选择离线安装的原因。

准备工作:系统环境搭建

以下操作均用root用户操作。

1. 网络配置(所有节点)

vi /etc/sysconfig/network修改hostname:

NETWORKING=yes
HOSTNAME=n1

通过service network restart重启网络服务生效。

vi /etc/hosts,修改ip与主机名的对应关系

192.168.1.106   n1
192.168.1.107 n2
192.168.1.108 n3

注意:这里需要将每台机器的ip及主机名对应关系都写进去,本机的也要写进去,否则启动Agent的时候会提示hostname解析错误。

2.打通SSH,设置ssh无密码登陆(所有节点)

在主节点上执行

# ssh-keygen -t rsa

# ssh-copy-id -i  /root/.ssh/id_rsa.pub  root@n2

测试:在主节点上ssh n2,正常情况下,不需要密码就能直接登陆进去了。

3.安装Oracle的Java(所有节点)

CentOS,自带OpenJdk,不过运行CDH5需要使用Oracle的Jdk,需要Java 7的支持。

卸载自带的OpenJdk,使用rpm -qa | grep java查询java相关的包,使用rpm -e --nodeps 包名卸载之。

去Oracle的官网下载jdk的rpm安装包,并使用rpm -ivh 包名安装之。

由于是rpm包并不需要我们来配置环境变量,我们只需要配置一个全局的JAVA_HOME变量即可,执行命令:

echo "export JAVA_HOME=/usr/java/latest/" >> /etc/profile

source /etc/prfile

4.关闭防火墙和SELinux

关闭防火墙:

service iptables stop (临时关闭)
chkconfig iptables off (重启后生效)

关闭SELINUX :

setenforce 0 (临时生效)
修改 /etc/selinux/config 下的 SELINUX=disabled (重启后永久生效)

5.所有节点配置NTP服务

集群中所有主机必须保持时间同步,如果时间相差较大会引起各种问题。 具体思路如下:

master节点作为ntp服务器与外界对时中心同步时间,随后对所有datanode节点提供时间同步服务。

所有datanode节点以master节点为基础同步时间。

所有节点安装相关组件:yum install ntp。完成后,配置开机启动:chkconfig ntpd on,检查是否设置成功:chkconfig --list ntpd其中2-5为on状态就代表成功。

本博客之前有过讲解,在此不再进行介绍。

6.进行安装之前的一些相关设置,为了避免在安装过程中出现一些错误,影响安装进度。

mv /usr/bin/host  /usr/bin/host.bak ; echo 0 > /proc/sys/vm/swappiness ; echo never > /sys/kernel/mm/redhat_transparent_hugepage/defrag

并加入开机启动:

cat >> /etc/rc.local <<EOF

echo 0 > /proc/sys/vm/swappiness

echo never > /sys/kernel/mm/redhat_transparent_hugepage/defrag

EOF

7.CM默认安装的是postgresql数据库,如果想使用mysql进行替代的话,还需要进行如下准备。

yum -y install mysql-server mysql-connector-java

service mysqld start

mysqladmin -u  root  password  'rootroot'

可以根据需要预先创建以下数据库:

--hive数据库         create database hive DEFAULT CHARSET utf8 COLLATE utf8_general_ci

--集群监控数据库   create database amon DEFAULT CHARSET utf8 COLLATE utf8_general_ci

--hue数据库          create database hue DEFAULT CHARSET utf8 COLLATE utf8_general_ci

初始化CM5服务器端的mysql数据库:

/usr/share/cmf/schema/scm_prepare_database.sh  mysql  scm -hlocalhost -uroot -prootroot --scm-host  localhost  scm  scm  scm

格式是:  scm_prepare_database.sh   数据库类型   数据库   服务器   用户名   密码    --scm-host   Cloudera_Manager_Server所在的机器  .......   scm   scm   scm后面三个scm未知

离线安装Cloudera Manager 5和CDH5

该初始化操作除了创建 CM server 所需的库和表外,同时还会更新CM服务器的数据库主配置文件  /etc/cloudera-scm-server/db.properties。

相关包的下载以及安装

Cloudera Manager server安装

1、下载Cloudera Manager 5.3.2所需的对应系统类型的rpm

下载网址为:

http://archive.cloudera.com/cm5/redhat/6/x86_64/cm/5.3.2/RPMS/x86_64/

JDK官网下载地址:

http://www.oracle.com/technetwork/java/javase/overview/index.html

安装rpm文件

将下载的rpm包直接放入文件夹/var/www/html/cm/ 下,为下文搭建yum源时做好准备

离线安装Cloudera Manager 5和CDH5

mkdir -p /var/www/html/cm/

yum localinstall –-nogpgcheck  *.rpm   (注意:在使用mysql作为数据库时,则不需要下载和安装 cloudera-manager-server-db-2-5.3.2-1.cm532.p0.209.el6.x86_64.rpm,此包为postgresql数据库的安装包)

2、分别启动agent服务端和cm服务端

/etc/init.d/cloudera-manager-agent start

/etc/init.d/cloudera-manager-server start

安装完成后等待一段时间,在浏览器输入localhost:7180    初次登录 用户名:admin 密码:admin (此时测试可以打开并顺利登陆即可,先不必进行任何操作。)

#3、下载Cloudera Manager 5.3.2的主安装文件并运行。(在用mysql数据库时省略此步)

http://archive.cloudera.com/cm5/installer/5.3.2/cloudera-manager-installer.bin

也可以直接从官网首页上进行下载: http://www.cloudera.com/content/cloudera/en/downloads/cloudera_manager/cm-5-3-2.html

此bin文件即可以实现在线一键安装CM和CDH,只是等待的时间有些长罢了

成功运行完毕该安装程序后,会启动cloudera-scm-server、cloudera-scm-agent、cloudera-scm-server-db这三个服务。

安装完成后等待一段时间,在浏览器输入localhost:7180    初次登录 用户名:admin 密码:admin (此时测试可以打开并顺利登陆即可,先不必进行任何操作。)

本地源配置用以安装CDH5

Parcel的可以从如下网址获得,下载.parcel文件和manifest.json文件:

http://archive.cloudera.com/cdh5/parcels/5.3.2/

因为这现在环境里用的是Centos6.4,所以这里选择下载以下三个文件:

http://archive.cloudera.com/cdh5/parcels/5.3.2/CDH-5.3.2-1.cdh5.3.2.p0.10-el6.parcel

http://archive.cloudera.com/cdh5/parcels/5.3.2/CDH-5.3.2-1.cdh5.3.2.p0.10-el6.parcel.sha1

http://archive.cloudera.com/cdh5/parcels/5.3.2/manifest.json

把以下载的以上文件拷贝到/opt/cloudera/parcel-repo/文件夹下,并修改属主。在安装CDH5时会自动调用该parcel源

chown -R cloudera-scm:cloudera-scm  /opt

并且把下载的.sha1文件重命名为.sha ,命令如下:

mv CDH-5.3.2-1.cdh5.3.2.p0.10-el6.parcel.sha1  CDH-5.3.2-1.cdh5.3.2.p0.10-el6.parcel.sha

mv ./*.parcel  /opt/cloudera/parcel-repo/

注意事项:

打开manifest.json文件查看CDH-5.3.2-1.cdh5.3.2.p0.10-el6.parcel对应的编号,核对与CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel.sha文件内容是否相同,如果不同的话修改成找到的编号!

以下是manifest.json中CDH-5.3.2-1.cdh5.3.2.p0.10-el6.parcel对应的编号,这里是:a1722a9c033d33ca4ed4558eaf6c10c803b06a16

{

"parcelName":"CDH-5.3.2-1.cdh5.3.2.p0.10-el6.parcel",

"components": [

{

"pkg_version": "0.7.0+cdh5.0.1+0",

"pkg_release": "1.cdh5.0.1.p0.30",

"name": "bigtop-tomcat",

"version": "6.0.37-cdh5.0.1"

},

{

"pkg_version": "0.9.0+cdh5.0.1+23",

"pkg_release":"1.cdh5.0.1.p0.25",

"name": "crunch",

"version": "0.9.0-cdh5.0.1"

},

............

{

"pkg_version": "0.9.0+cdh5.0.1+8",

"pkg_release": "1.cdh5.0.1.p0.25",

"name": "whirr",

"version": "0.9.0-cdh5.0.1"

},

{

"pkg_version": "3.4.5+cdh5.0.1+30",

"pkg_release":"1.cdh5.0.1.p0.31",

"name": "zookeeper",

"version": "3.4.5-cdh5.0.1"

}

],

"replaces": "IMPALA, SOLR, SPARK",

"hash":"a1722a9c033d33ca4ed4558eaf6c10c803b06a16"

}

关于datanode节点的Agent安装

datanode集群主机比较多时,比较快捷省事的方法是在master节点搭建Yum软件源用以安装datanode节点的Agent推荐

1、yum install -y createrepo httpd ; mkdir -p  /var/www/html/cm/

2、把Cloudera Manager 5.3.2所需的对应系统类型的源rpm包下载到 /var/www/html/cm/ (此步上文已经交待进行过)

这里下载地址为 http://archive.cloudera.com/cm5/redhat/6/x86_64/cm/5.3.2/RPMS/x86_64/

3、cd  /var/www/html/cm ; createrepo . (该createrepo命令执行的位置须对应 myrepo文件中的URL中的位置)

4、service httpd start

5、除在上文交待过的各节点的准备工作之外,还需要在各个datanode节点添加repo文件  vim  /etc/yum.repos.d/my.repo

[myrepo]

name=My Cloudera Manager

baseurl=http://主节点IP/cm/

gpgcheck=0

cost=300

#cost权值默认为1000,值越小优先级越高(适用于当同版本的包位于不同的repo中时,优先从本repo获取)

需要注意的一点是,repo 的优先级跟 *.repo 的文件名称无关

6、登录CM管理页面,一路next进行相关“添加新主机”的操作.

CDH5的安装配置

Cloudera Manager Server和Agent都启动完以后,就可以进行CDH5的安装配置了。

这时可以通过浏览器访问主节点的7180端口测试一下了(由于CM Server的启动需要花点时间,这里可能要等待一会才能访问),默认的用户名和密码均为admin:

离线安装Cloudera Manager 5和CDH5

可以看到,免费版本的CM5已经没有原来50个节点数量的限制了。

离线安装Cloudera Manager 5和CDH5

各个Agent节点正常启动后,可以在当前管理的主机列表中看到对应的节点。选择要安装的节点,点继续。

离线安装Cloudera Manager 5和CDH5

接下来,出现以下包名,说明本地Parcel包配置无误,直接点继续就可以了。

离线安装Cloudera Manager 5和CDH5

点击,继续,如果配置本地Parcel包无误,那么下图中的已下载,应该是瞬间就完成了,然后就是耐心等待分配过程就行了,大约10多分钟吧,取决于内网网速。

离线安装Cloudera Manager 5和CDH5

接下来是选择安装服务:

离线安装Cloudera Manager 5和CDH5

服务配置,一般情况下保持默认就可以了(Cloudera Manager会根据机器的配置自动进行配置,如果需要特殊调整,自行进行设置就可以了):

离线安装Cloudera Manager 5和CDH5

接下来是数据库的设置,检查通过后就可以进行下一步的操作了:

离线安装Cloudera Manager 5和CDH5

下面是集群设置的审查页面,我这里都是保持默认配置的:

离线安装Cloudera Manager 5和CDH5

服务的安装过程大约半小时内就可以完成:

离线安装Cloudera Manager 5和CDH5

安装完成后,就可以进入集群界面看一下集群的当前状况了。

这里可能会出现无法发出查询:对 Service Monitor 的请求超时的错误提示,如果各个组件安装没有问题,一般是因为服务器比较卡导致的,过一会刷新一下页面就好了:离线安装Cloudera Manager 5和CDH5

注意红色框内的部分,编辑主机模板时要勾选好具体的服务

离线安装Cloudera Manager 5和CDH5

这样在添加新datanode主机节点时,可以使用已创建的模板为其指定角色

离线安装Cloudera Manager 5和CDH5

添加角色实例到 单独具体的服务:
 
离线安装Cloudera Manager 5和CDH5
 
 
 
一键卸载CM5:
/usr/share/cmf/uninstall-cloudera-manager.sh    
---------------------------------------------------------------------------------------------------

FAQ:

安装时卡在正在获取安装锁时,去agent节点  yum remove cloudera-manager-agent -y ,然后重新尝试失败的主机

参考文档:

http://www.aboutyun.com/thread-9087-1-1.html

http://www.aboutyun.com/thread-9078-1-1.html

上一篇:Ubuntu14.04用apt在线/离线安装CDH5.1.2[Apache Hadoop 2.3.0]


下一篇:Oracle连接字符串大全