一文读懂数据仓库

数据仓库

数据仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的大型数据库,它的数据基于事务型的关系数据库。

数据仓库中的数据是相对稳定的、集成的、面向主题的、反映历史变化的,以分析需求为目的数据集合。

数据集市

数据集市是数据仓库的一个逻辑子集。

(1) 特定用户群体所需的信息,通常是一个部门或者一个特定组织的用户。

(2) 访问相对稳定的业务信息。(以预定的时间间隔进行更新,不受数据库系统中的更新的影响。)

(3) 来自于组织里多个运行系统的信息,比如账目、销售、库存和客户管理以及组织外部的行业数据。

(4) 数据集市是部门级的,相对于庞大的数据仓库来讲,其查询和分析的响应时间会大大缩短。

ETL

ETL将分散在各个系统中的数据抽取出来,并将这些不同源的数据进行转换和整合,得出一致性的数据,然后加载到数据仓库中。

ETL搭建了各业务系统和数据仓库之间的桥梁,也就是基于业务系统的数据生成数据仓库。

在数据仓库的构建中,ETL贯穿于项目始终。

展示

(1)可视化工具

(2) 仪表盘

(3) 系统界面

一文读懂数据仓库

数据仓库的建模

(1)梳理数据来源,确定数据所在的外部系统。

(2)业务建模:针对业务进行全方面的梳理和分解。

(3)概念模型:把业务建模的各个业务流程过程抽象出实体以及实体和实体之间的关系。

(4)逻辑模型:是数据仓库项目的核心基础。好的逻辑模型能够保证数据仓库的稳定性,同时很容易理解数据,处理数据的效率也很高。

(5)维度建模:对某一主题,通过建设维度和事实来快速建设数据仓库。

 a)确定主题。比如航班的上座率、收益。

 b)确定量度。要分析的技术指标,比如年收益率、年上座率。

 c)确定数据粒度。采用“最小粒度原则”。

 d)确定维度。指分析的各个角度。比如按照时间、按照起始地。

 e)创建事实表。量度的实际数据。

案例分析

客户流失分析

组成如下图所示。

    

一文读懂数据仓库

(1)客户流失的分析和定义

从本运营商转到其他运营商、从高费用套餐转到低费用套餐、欠费等原因被动停机。

(2)数据选择

数据来自不同的系统,比如CRM、BOSS、经分、电子渠道等等。数据会很多,客户个人信息(星级、年龄、婚姻状况、地址、收入、教育程度、行业、性别、居住地、是否在职等等)、使用服务信息(套餐类型、上月基本话费,上月长话费,上月上网费,累计基本话费,累计长话费,累计上网费等等)、甚至外部的征信数据(消费、信用度)。

(3)数据清洗和预处理

对空值、无效值、异常值处理。

(4)建模

根据通话时长、上网时长、收入、年龄等多个主题建立维表,进行挖掘分析,建立客户流失模型。

(5)计算结果

收入低、年轻人、通话少、上网少的人群容易离网。

(6)模型评估

对计算的结果进行检验,验证模型的有效性。

(7)优化和调整

进一步的优化和调整,得到更精确的结果。这是一个不断改进的过程。

 

上一篇:最新Kettle智能电商全栈数据仓库项目 Kettle ETL处理实时仓库+离线仓库高级项目课程


下一篇:大数据ETL处理时遇到的坑