基于阿里云EMR初期集群选购指南

2024-02-28 20:41:58

业务库：累计15G

日志：累计3T；日增量13G

方案制定：

集群有两个NameNode节点，一台处于active状态，一台处于standby状态，两台机器实时同步元数据信息，但整个集群工作由active状态的NameNode负责，当此台NameNode出现故障（宕机等情况），standby状态的NameNode会立刻转为active模式，保证集群正常运行。

可选磁盘：ESSD PL0 ，高效云盘

磁盘类型后续不可修改，但可增加不同类型磁盘混用；

现有业务高效云盘可以支撑，需考虑后续需求情况；

集群版本：阿里云EMR-3.29.0

Hadoop版本：hadoop2.x

可选组件：

MySQL（云）：1.用来存放各组件的原数据；2.离线数据导出

Kafka（云或自建）：消息中间件，减少业务间耦合度，统一数据源等

Redis（云或自建）：NoSQL数据库，读写速度快，实时项目存储数据，保存偏移量

Airflow（自建）：调度工具，调度任务

DataX（自建）：数据仓库-业务库间数据导入导出

FileBeat（自建）：日志采集

阿里云 Quick BI

码农公寓