Boys,Grils,Friends! My name is Jinsuo.Shi. 一个不正经的大数据开发工程师,目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。
个人大数据技术栈:DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…
个人在学习领域:Python,Pandas数据分析,PowerBI数据可视化,机器学习,算法等…
个人兴趣爱好:广泛阅读,旅游远行,运动健身,王者农药…
【今日重点:大数据学习第二阶段stage2:企业如何搭建大数据平台?个人学习如何在虚拟机上搭建整个大数据的环境?】
目录
开场白
1. 企业搭建大数据平台
1.1 大数据平台分层
1. 装备设备层:又可以称之为数据采集层,数据接入层,这一层主要是从不同的数据源采集数据,常用的数据源:软件系统:CRM,CDP,DMP,web日志文件,传感器数据,网站埋点数据,车载数据等各种可以发射数据的装置都可以采集,常用的采集工具有:
- Sqoop:做数据的迁移,可以从RDBMS(关系型数据库)<->大数据集群的数据互相迁移,用的比较少
- DataX:大部分公司都在用,个人感觉不狗智能,实际用起来还是有很多限制的,比如,mysql->hive 表里数据为空时,会发生错位,目标表也不能自动生成
- Flume 日志采集的工具
2. 数据存储层:字面含义,存储数据的地方,常用的有:
- MySQL 少量结构化数据存储,注意这里的少,是相对于大数据而言,
- HDFS 分布式文件系统,存储容量受到集群规模限制,只要有节点,理论便可无限扩展,
- HABSE 大数据的数据库,针对大级别数据而存在,使用起来非常快,是一个基于列式存储的非关系数据库,意味着不能写SQL,但是可以借助phoenix,在phoenix上写SQL
- Kafka 针对实时更新,流式数据存储,是一个消息缓冲组件
- Hive 严格来说,不是一个数据存储的组件,只是把HDFS上的结构化的文件映射成表,来进行数据分析
3. 分析应用层:字面意思,进行数据的分析与实际的应用,常用的大数据分析组件有
- HIVE 数仓工具,大部分公司的数据统计分析都在HIve上完成
- Spark 计算框架,啥都可以做,包括数据迁移,数据ETL,数据分析,可以连接Hive,在spark里写SparkSQL来操作Hive
- Flink 流式计算框架,主要针对实时的数据,主要通过连接Kafka来分析数据
1.2 建立平台的步骤
1. 痛点
痛点,也可以说难点,数据的整合.由于集团下各个子公司使用的系统都不一样,如ERP,CRM.,数据的打通非常关键,如何解决数据壁垒,形成数据湖,各个数据开发部门会有自己的一套方法,本公司的就不在这里论述了,属于公司机密,你懂的!
2. 目标
大多数公司是以客户为中心,这样做确实快,但会被客户牵着走,没有自己公司的标准产品,前期还可以,后期想做大做强,没有标准产品那是不行的!
3. 战略
三大平台我所在的公司都有,公司前期是做广告投放的,现在在做一站式的解决方案!
4. 应用范围
5. 实施
图有点小,从左到右四层:源数据层->数据仓库层(ODS,DWD,DWS,每个公司不一样)->服务&访问层(报表,数据挖掘,应用服务)->应用&用户层(营销决策,广告投放,会员管理)
1.3 数据仓的设计理念
轻前台,快中台,大后台
2. 个人搭建大数据环境
在搭建之前,你也许看过别人写的搭建几台服务器形成一个大数据集群,靠诉你,没必要,你是能更快呢,还是能更稳定呢,都不能,你在虚拟机里搭载多的节点,还是依赖与自己一个电脑的性能,所以说学习搭建一个节点就够了!
2.1 组件安装包准备
- centos7 系统安装(在虚拟机里)
- 安装JDK8,mysql5
- 数据迁移组件:DataX,Sqoop,Flume(三个后续安装)
- 数据存储组件:Hadoop(HDFS) 2.7.1,Hbase 1.3.1,Hive 1.2.1,Kafka 2.11(后续安装)
- 数据计算分析组件:Spark 2.0.2,Flink(后续安装)
- 任务调度组件:Azkaban 2.5.0,Airflow(后续安装)
2.2 手把手从0开始搭建
1. 安装centos7
1.安装vmware软件并开启电脑的虚拟化技术(BIOS)
2. 安装centos7(这里安装DVD版,mini*面就不装了)
2. 安装JDK8和MySQL8.0
注意mysql8的密码有规范,可以改成Root#123,大小写字母+特殊字符+数字
修改密码: ALTER USER ‘root’@‘localhost’ IDENTIFIED BY ‘Root#123’;
1.jdk的安装非常简单: 上传jdk压缩包,解压,配置环境变量!
2.mysql8安装可以看我的另一篇博文安装:技术篇-MySQL8+Hive3.1.2安装分享
3.设置远程连接之后,既可以使用navicat连接!
下面的组件都是三步走:上传压缩包,解压,配置
3. 安装 Hadoop2.7.1
配置个datanode就可以了,也可以参考我的另一篇文章配置: 技术篇-Hadoop3.2.1简化安装分享
4. 安装Hive1.2.1
单节点可以不用配置,也可以参考我的另一篇文章配置: 技术篇-MySQL8+Hive3.1.2安装分享
5. 安装Hbase1.3.1
单节点不需要其他配置,让它能启起来就行!
6. 安装Spark2.0.2
解压即用,先不配环境变量,以免和Hadoop的环境变量起冲突
全部组件启动查看: jps
3. 下期更精彩
这期到这里就结束了,如果在安装过程中出现问题,可以随时交流!把组件安装好,下期就可以进入组件的学习,订阅关注不迷路,咱们下期见!