- 业务数据量
业务库:累计15G
日志:累计3T;日增量13G
- 集群配置
方案制定:
- 高可用(建议):
集群有两个NameNode节点,一台处于active状态,一台处于standby状态,两台机器实时同步元数据信息,但整个集群工作由active状态的NameNode负责,当此台NameNode出现故障(宕机等情况),standby状态的NameNode会立刻转为active模式,保证集群正常运行。
- 方案:
|
方案一 |
方案二 |
方案三 |
方案四 |
是否高可用 |
是 |
是 |
否 |
否 |
总机器数 |
4 |
4 |
3 |
3 |
Master节点数 |
2 |
2 |
1 |
1 |
Master核心数 |
16 |
16 |
16 |
16 |
Master内存 |
64G |
64G |
64G |
64G |
Master磁盘 |
120G ESSD系统盘+1T ESSD硬盘 |
120G ESSD系统盘+1T高效云盘 |
120G ESSD系统盘+1T ESSD硬盘 |
120G ESSD系统盘+1T高效云盘 |
Worker节点数 |
2 |
2 |
2 |
2 |
Worker核心数 |
16 |
16 |
16 |
16 |
Worker内存 |
64G |
64G |
64G |
64G |
Worker磁盘 |
120G ESSD系统盘 + 4*2T ESSD硬盘 |
120G ESSD系统盘 + 4*2T 高效云盘 |
120G ESSD系统盘 + 4*2T ESSD硬盘 |
120G ESSD系统盘 + 4*2T 高效云盘 |
预估价格 |
26592.00/月 |
14611.20/月 |
23528.00/月 |
12212.80/月 |
|
|
|
|
|
- 磁盘性能对比
可选磁盘:ESSD PL0 ,高效云盘
磁盘类型后续不可修改,但可增加不同类型磁盘混用;
现有业务高效云盘可以支撑,需考虑后续需求情况;
- 技术选型
集群版本:阿里云EMR-3.29.0
Hadoop版本:hadoop2.x
可选组件:
- Zookeeper(高可用默认安装):分布式服务框架,Hbase和手动安装低版本Kafaka会用到
- Impala:快速查询HDFS或HBase中的数据的查询系统
- Flume:数据采集工具,可用来做日志采集
- Flink:现在非常流行的实时数据处理工具
- 其他
MySQL(云):1.用来存放各组件的原数据;2.离线数据导出
Kafka(云或自建):消息中间件,减少业务间耦合度,统一数据源等
Redis(云或自建):NoSQL数据库,读写速度快,实时项目存储数据,保存偏移量
Airflow(自建):调度工具,调度任务
DataX(自建):数据仓库-业务库间数据导入导出
FileBeat(自建):日志采集
- 数据流
- 数据门户
阿里云 Quick BI