该roadmap是对自身大数据知识的一个概括和梳理,之后会写一些博客对这些知识点进行展开。
- 大数据基础
- Hadoop
- HDFS
- MR
- Yarn
- Spark
- spark 的原理
- spark 常用算子。
- spark 参数调优。
- Flink
流计算 - Hive/Hbase/Flume
大数据中还有其他的组件,比如 作为数仓处理的 Hive,列数据库 HBASE,负责数据 ETL 的 Flume, 负责调度的 OOZIE 等。
- Hadoop
- 大数据开发
大数据通用开发流程, 以常用的 lamdba 为例。- 埋点。主要包含APP 和 H5 上的用户行为埋点与收集
- 数据抽取。如何将埋点数据和业务数据抽取到 大数据平台。
- 数据计算。常用的 MR, Spark,流式可以用 Spark Streaming, Flink
- 数据存储与建模。 数据可以保存在 HDFS,CK等。 建模可以是常用的维度建模, 可以按照 ODS、DWD、DWS、ADS进行分层。
- 数据展示与使用。 包括 BI 报表,OneService
- 大数据管理
大数据管理部分包含,Job 管理,元数据管理,数据质量,数据指标,IDE平台建设等, 主要是通过这些平台的建设,掌握整个数据平台的运行情况, 让数据更加准确,易用,让平台运行更加健康。- 平台管理,比如小文件管理,元数据管理,安全管理。
- 数据管理,比如数据质量,数据血缘,数据指标
- 平台自身建设,比如 Job,IDE,BI 报表系统等
- 大数据应用
大数据平台除了产出报表,还可以有下面这些应用- 用户画像,DMP 平台等。用户画像可以在商品召回,或者重排时使用,DMP 平台可以在运营精准营销时起到关键作用。
- 搜索,推荐,广告。现在大多数应用都有搜索,猜你喜欢等模块,这些模块的背后混合了机器学习,用户画像等技术。
- 数据挖掘。比如频繁项挖掘,落地到场景比如买了还买。
- 机器学习。比如 CTR 预估,情感分析,图像识别。