具体数仓甚至数据治理方面可以参考下图
按照数仓分层思想,分为ods贴源层、dw主题层、mid维表层、dm集市层、app应该层
过程如下:
1 数据通过采集或同步落地基于HDFS存储的ods层
2 主题抽取确认
3 如果有此需求,构建基于主题数据的微聚合结果
4 构建维表层数据,如时间、地区、产品类别等数据
5 进行数据集市构建如统计结果、用户画像、TopN热门数据
6 进行集市数据的输出到app进行BI可视化展示
dws是基于主题数据做的微聚合,对下游的dm集市数据聚合起到提高计算效率的优化,另外对于其他如用户画像标签表可以做到数据复用的目的。
dm是集市数据层,主要是针对app应用数据层,包括了统计报表类的结果数据、用户标签表数据及TopN的热门数据(如商品、音乐、聊天话题等)