大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

Boys,Grils,Friends! My name is Jinsuo.Shi. 一个不正经的大数据开发工程师,目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。
个人大数据技术栈:DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…
个人在学习领域:Python,Pandas数据分析,PowerBI数据可视化,机器学习,算法等…
个人兴趣爱好:广泛阅读,旅游远行,运动健身,王者农药…

【今日重点:大数据学习第二阶段stage2:企业如何搭建大数据平台?个人学习如何在虚拟机上搭建整个大数据的环境?】

目录

开场白

1. 企业搭建大数据平台

1.1 大数据平台分层

大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

1. 装备设备层:又可以称之为数据采集层,数据接入层,这一层主要是从不同的数据源采集数据,常用的数据源:软件系统:CRM,CDP,DMP,web日志文件,传感器数据,网站埋点数据,车载数据等各种可以发射数据的装置都可以采集,常用的采集工具有:

  • Sqoop:做数据的迁移,可以从RDBMS(关系型数据库)<->大数据集群的数据互相迁移,用的比较少
  • DataX:大部分公司都在用,个人感觉不狗智能,实际用起来还是有很多限制的,比如,mysql->hive 表里数据为空时,会发生错位,目标表也不能自动生成
  • Flume 日志采集的工具

2. 数据存储层:字面含义,存储数据的地方,常用的有:

  • MySQL 少量结构化数据存储,注意这里的少,是相对于大数据而言,
  • HDFS 分布式文件系统,存储容量受到集群规模限制,只要有节点,理论便可无限扩展,
  • HABSE 大数据的数据库,针对大级别数据而存在,使用起来非常快,是一个基于列式存储的非关系数据库,意味着不能写SQL,但是可以借助phoenix,在phoenix上写SQL
  • Kafka 针对实时更新,流式数据存储,是一个消息缓冲组件
  • Hive 严格来说,不是一个数据存储的组件,只是把HDFS上的结构化的文件映射成表,来进行数据分析

3. 分析应用层:字面意思,进行数据的分析与实际的应用,常用的大数据分析组件有

  • HIVE 数仓工具,大部分公司的数据统计分析都在HIve上完成
  • Spark 计算框架,啥都可以做,包括数据迁移,数据ETL,数据分析,可以连接Hive,在spark里写SparkSQL来操作Hive
  • Flink 流式计算框架,主要针对实时的数据,主要通过连接Kafka来分析数据

1.2 建立平台的步骤

大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

1. 痛点

大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

痛点,也可以说难点,数据的整合.由于集团下各个子公司使用的系统都不一样,如ERP,CRM.,数据的打通非常关键,如何解决数据壁垒,形成数据湖,各个数据开发部门会有自己的一套方法,本公司的就不在这里论述了,属于公司机密,你懂的!

2. 目标

大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

大多数公司是以客户为中心,这样做确实快,但会被客户牵着走,没有自己公司的标准产品,前期还可以,后期想做大做强,没有标准产品那是不行的!

3. 战略

大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

三大平台我所在的公司都有,公司前期是做广告投放的,现在在做一站式的解决方案!

4. 应用范围

大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

5. 实施

大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

图有点小,从左到右四层:源数据层->数据仓库层(ODS,DWD,DWS,每个公司不一样)->服务&访问层(报表,数据挖掘,应用服务)->应用&用户层(营销决策,广告投放,会员管理)

1.3 数据仓的设计理念

大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

轻前台,快中台,大后台

2. 个人搭建大数据环境

在搭建之前,你也许看过别人写的搭建几台服务器形成一个大数据集群,靠诉你,没必要,你是能更快呢,还是能更稳定呢,都不能,你在虚拟机里搭载多的节点,还是依赖与自己一个电脑的性能,所以说学习搭建一个节点就够了!

2.1 组件安装包准备

  1. centos7 系统安装(在虚拟机里)
  2. 安装JDK8,mysql5
  3. 数据迁移组件:DataX,Sqoop,Flume(三个后续安装)
  4. 数据存储组件:Hadoop(HDFS) 2.7.1,Hbase 1.3.1,Hive 1.2.1,Kafka 2.11(后续安装)
  5. 数据计算分析组件:Spark 2.0.2,Flink(后续安装)
  6. 任务调度组件:Azkaban 2.5.0,Airflow(后续安装)

2.2 手把手从0开始搭建

1. 安装centos7

1.安装vmware软件并开启电脑的虚拟化技术(BIOS)
2. 安装centos7(这里安装DVD版,mini*面就不装了)
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

2. 安装JDK8和MySQL8.0

注意mysql8的密码有规范,可以改成Root#123,大小写字母+特殊字符+数字
修改密码: ALTER USER ‘root’@‘localhost’ IDENTIFIED BY ‘Root#123’;

1.jdk的安装非常简单: 上传jdk压缩包,解压,配置环境变量!
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

2.mysql8安装可以看我的另一篇博文安装:技术篇-MySQL8+Hive3.1.2安装分享
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)
3.设置远程连接之后,既可以使用navicat连接!
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

下面的组件都是三步走:上传压缩包,解压,配置

3. 安装 Hadoop2.7.1

配置个datanode就可以了,也可以参考我的另一篇文章配置: 技术篇-Hadoop3.2.1简化安装分享
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

4. 安装Hive1.2.1

单节点可以不用配置,也可以参考我的另一篇文章配置: 技术篇-MySQL8+Hive3.1.2安装分享
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

5. 安装Hbase1.3.1

单节点不需要其他配置,让它能启起来就行!
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

6. 安装Spark2.0.2

解压即用,先不配环境变量,以免和Hadoop的环境变量起冲突

全部组件启动查看: jps
大数据系列—从为什么学,到平台搭建,到组件学习,到企业应用的全方位的分享(stage2)

3. 下期更精彩

这期到这里就结束了,如果在安装过程中出现问题,可以随时交流!把组件安装好,下期就可以进入组件的学习,订阅关注不迷路,咱们下期见!

上一篇:飞机订票系统_Stage2


下一篇:【计算机网络】实验7:子网的划分