浅谈大数据平台架构

2022-02-01 21:39:14

                           什么是大数据平台

有三个疑问：

1.使用Cloudera或Hortonworks之类的Hadoop发行版本公司的提供的Hadoop套件，配置些参数，找几台服务器部署起来就算是一套大数据平台吗?

2.数据开发人员平时的工作是不是写些MR或者SQL任务，使用原生的命令行提交任务就可以了吗?

3.平台开发人员日常的工作是不是处理下集群的故障，给业务方扫盲，纠正各种框架组件使用姿势呢?

大数据平台个人理解：

是基于开源或自研组件的基础上创造更多的附件价值，提供给用户一个
完整的大数据业务解决方案，而不仅仅是做一个集群的维护者

                            大数据平台的价值

1.数据开发角度
一.降低数据开发门槛
二.提升数据开发人员效率

2.运维角度
一.降低运维门槛
二.提升运维效率

3.公司角度
一.数据统一管理（OneData理念），降低成本

                           大数据平台架构选型

离线计算:

1.Spark+SparkSQL
2.MR（Hadoop）+HiveSQL

1.DataX（Alibaba，开源支持单机版本）

1.Flink
2.SparkStreaming

1.Flume

1.Kylin

1.Spark MLib

1.TensorFlow

1.Yarn

1.Cloudera
2.星环