EMR HDFS Architecture
本文以非HA集群,2个worker的集群为例。
非HA集群,仅有一个Namenode实例,部署在Master节点。
Namenode主要职责:
-管理文件系统namespace,包括但不仅限于:开、关文件,文件改名,目录操作等。
-管控客户端对文件的访问
EMR hadoop集群,每个Worker节点仅部署一个Datanode实例。
Datanode主要职责:
-管理所在节点挂载的存储
-提供给客户端读写服务
-block创建、删除以及replication
登录EMR集群实现基本运维
在较新的集群版本中(3.2 以上版本),所有的服务操作都可以通过集群的配置管理功能来完成。推荐优先使用 Web 页面的管理方式。
若您觉得在网页上的作业和执行计划无法满足您更加复杂的应用需求,您可以登录到 E-MapReduce 集群的主机上。找到集群的详情页,其中就有集群 master 机器的公网 IP 地址,您可以直接 SSH 登录到这台机器上,查看各种设置与状态。
登录 Master 主机步骤
- 使用如下命令 SSH 登录到 master 主机。请在集群详情页的主机信息栏中获取集群 master 机器的公网 IP。
ssh root@ip.of.master
- 输入创建集群时设定的密码。
如何登录 Core 节点
A:按照如下步骤:
- 首先在 Master 节点上切换到 Hadoop 账号:
su hadoop
- 然后即可免密码 SSH 登录到对应的 Core 节点:
ssh emr-worker-1
- 通过 sudo 可以获得 root 权限:
sudo vi /etc/hosts
通过命令行方式启停服务进程
操作用账号:hdfs
- NameNode (Master 节点)
// 启动
/usr/lib/hadoop-current/sbin/hadoop-daemon.sh start namenode
// 停止
/usr/lib/hadoop-current/sbin/hadoop-daemon.sh stop namenode
- DataNode (Core 节点)
// 启动
/usr/lib/hadoop-current/sbin/hadoop-daemon.sh start datanode
// 停止
/usr/lib/hadoop-current/sbin/hadoop-daemon.sh stop datanode
示例:登录实际emr集群演示停止datanode进程操作