数仓分层理论和应用

一、数据分层概念及用途
1.数据运营层:ODS(Operational Data Store),数据来源经过ETL存入hive后就是ODS层。
2.数仓:ODS经过按照主题建立各种数据模型,细分如下:
1)数据明细层:DWD(Data Warehouse Detail),按照业务处理方式将各个专业数据进行集中,保证数据完整性和质量。
2)数据中间层:DWM(Data WareHouse Middle),对DWD层的生产数据进行轻度综合和汇总统计,面向分析型应用对数据进行细粒度沉淀,保留的维度较多。
3)数据服务层:DWS(Data WareHouse Servce)即数据集市或宽表,高度集中,按照业务划分生成字段较多宽表,提供给业务查询,OLAP分析,数据分发。
3.App产品应用层:从数据集市获取数据查询统计展现或导入Mysql使用,服务于特定场景。

二、数据来源
1.业务数据库:使用sqoop抽取
2.埋点日志:通过flume定时抽取,或spark streaming实时抽取,一般日志通过filebeat收取发到kafka获取
一般需要进行简单清晰处理,如异常字段处理,统一规范,时间字段统一等。

三、主题
主题是高层次对企业数据信息进行综合,归类,分析利用的概念。每个主题对应一个分析领域。

上一篇:大数据开发技术之Hive数据仓库架构分层


下一篇:windows Server 2008 IIS7 503错误解决方案