阿里云和 Cloudera 展开密切合作,在阿里云的公有云上提供开箱即用的 CDP 平台,使得用户可以根据自己的需求,在阿里云上启用安全、合规和高可用的 CDP 平台,充分利用 CDP 平台的功能和阿里云的灵活性,来降低客户管理平台的复杂性,从而快速实现业务。
选择合适的集群是在阿里云平台上使用 CDP 的第一步。CDP 配置选型不仅要考虑企业大数据使用场景、估算数据量、服务可靠性、安全等要求,还要考虑企业预算。
一、CDP节点类型
Cloudera 建议在生产环境中部署 CDP 多达四种机器类型:
- 主节点-主要运行 Hadoop 主守护程序,例如 NameNode, Standby NameNode, YARN Resource Manager and History Server, the HBase Master daemon, Ranger server, Atlas Server, and the Impala StateStore Server and Catalog Server。主节点也是 Zookeeper 和 JournalNodes 的安装位置。守护程序可以共享一个服务器池。根据集群大小、角色可以在专用服务器上运行。Kudu Master Servers 也应该部署在主节点上。生产集群建议打开高可用 HA,生产集群建议在创建集群的硬件配置步骤开启高可用。如果购买时未开启高可用,在后续使用过程中开启高可用功能。Master 节点主要用来存储 HDFS 元数据和组件 Log 文件,属于计算密集型,对磁盘 IO 要求不高。HDFS 元数据存储在内存中,建议根据文件数量选择32 GB以上内存空间。
- 工作节点-主要用来存储数据和执行计算,运行 HDFS DataNode,、YARN NodeManager、HBase RegionServer、Impala impalad、Search worker daemons 和 Kudu Tablet Servers。推荐使用 SSD 云盘存储数据。
- 工具节点-运行 Cloudera Manager 和 Cloudera Management Services。它还可以运行托管的 MariaDB(或其他受支持的)数据库实例,Cloudera Manager、Hive、Ranger 和其他与 Hadoop 相关的项目将使用该数据库实例。
- 边缘节点-包含所有面向客户端的配置和服务,包括 HDFS、YARN、Impala、Hive 和 HBase 的网关配置。Hue、 Oozie、 HiveServer2 和 Impala HAProxy、 HiveServer2 和 Impala HAProxy server 充当通往外部应用程序(如商务智能(BI)工具)的网关也部署在边缘节点上。边缘节点也称为网关节点。
注意:在较小的集群中边缘和工具节点可以合并在一起。
阿里云上的 CDP 存储目前支持 ESSD 云盘。底层存储目前支持 HDFS 和 Kudu。HDFS 的数据可用性由云盘或本地盘存储的可靠性来保证。
二、CDP 集群角色分布
没有启用 HA 的3-10个工作节点角色分配
启用 HA 的3-20个工作节点角色分配
三、设置对基于阿里云部署的 CDP 的访问权限
在阿里云或者内外网环境中,Cloudera 的平台产品 CDP 需要访问很多 Web UI,但系统网络可能仅支持 SSH 访问(22端口)。要访问 Cloudera Manager(7180端口)或者其他服务,可以通过下列两种方式:
- 在客户端计算机上设置 SOCKS(套接字安全协议)代理。Cloudera 建议您使用此选项。
- 将 CDP/CDP 部署到阿里云之后,将入站规则添加到阿里云实例中的网络安全组。
配置 SOCKS 代理
SOCKS5 协议是作为客户端和服务器进程实现的,它可以遍历IP网络防火墙。配置 SOCKS 代理后,浏览器使用公有云网络(通过代理服务器)解析 DNS 查找,并允许您使用内部 FQDN 或专用 IP 地址连接到服务。
使用这种方法,您可以完成以下任务:
- 设置到网络上主机之一的单个 SSH 隧道,并在主机上创建 SOCKS 代理。
- 更改浏览器配置,以通过 SOCKS 代理主机执行所有查找。
网络先决条件
在使用 SOCKS 代理连接到集群之前,请验证以下先决条件:
- 您必须能够从公共 Internet 或您要从其连接的网络中访问要代理的主机。
- 您要代理的主机必须与您要连接的 Cloudera 服务位于同一网络上。例如,如果您使用的是 Cloudera CDP 产品,请通过 SSH 隧道连接到 Cloudera Manager 主机。
启动 SOCKS 代理
Linux
要通过 SSH 启动 SOCKS 代理,请运行以下命令:
ssh -i your-key-file.pem -CND 1080 the_username_you_specified@publicIP_of_VM
该命令使用以下参数:
- -i your-key-file.pem 指定 SSH 到 Cloudera CDP/EDH 服务器所需的私钥的路径。如果使用 SSH 密码,则省略。
- C 设置压缩。
- N 建立后禁止执行任何命令。
- D 在端口上设置SOCKS代理。
- 1080 用于在本地设置 SOCKS 代理的端口。
Windows
按照 Microsoft 网站上的说明进行操作。
配置 Google Chrome 浏览器以使用代理
默认情况下,Chrome 浏览器会按配置文件使用系统范围的代理设置。要在没有这些设置的情况下启动 Chrome,请通过命令行打开 Chrome并 指定以下内容:
- SOCKS 代理端口。该端口必须与启动代理时使用的端口相同。
- 配置文件。下面的示例创建了一个新的配置文件。
使用以下命令之一创建配置文件并启动与当前任何正在运行的 Chrome 实例不冲突的 Chrome 的新实例。
Linux
/usr/bin/google-chrome \ --user-data-dir="$HOME/chrome-with-proxy" \ --proxy-server="socks5://localhost:1080"
Mac OS X
"/Applications/Google Chrome.app/Contents/MacOS/Google Chrome" \ --user-data-dir="$HOME/chrome-with-proxy" \ --proxy-server="socks5://localhost:1080"
微软Windows
"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" ^ --user-data-dir="%USERPROFILE%\chrome-with-proxy" ^ --proxy-server="socks5://localhost:1080"
在此 Chrome 会话中,您可以使用私有 IP 地址或内部 FQDN 连接到 Cloudera CDP 可访问的任何主机。
这样就可以通过内网访问 Cloudera Manager 和其他 Web UI 了
也可以通过 CM 中的 web UI 跳转直接跳转过去。
网络安全组
警告:除概念验证以外,不建议将此方法用于任何其他目的。如果没有仔细锁定数据,那么黑客和恶意实体将可以访问这些数据。
点击链接参与阿里云CDP限时免费测试啦~
https://survey.aliyun.com/apps/zhiliao/owtTaIQU3
钉钉扫描下方二维码加入阿里云 Cloudera 企业数据云交流群一起参与讨论吧!