一、元数据管理概述
1.1 数据管理面临的问题
数据治理的概念是对数据数据管理的管理,在数据管理的过程中遇到的问题有:
1.1.1 数据不可理解
海量数据,标准不统一,各系统、各部门对统一指标和概念的解释不一致,统计口径存在差异
1.1.2 数据不可信赖
数据在加工、转换过程中,由于技术和人为因素造成偏差;环节过多,失真程度严重。
1.1.3 数据不可追溯
数据加工过程复杂,且来源众多,无法找到数据源,无法展现加工规则。
1.1.4 数据不可管控
数据权限不清,流程不清、责任人不清,造成业务部门和数据需求响应缓慢,处理搁置。
1.2 元数据定义
元数据是关于数据的数据,主要包括业务元数据、技术元数据、操作元数据、管理元数据。在DAMA领域当中,元数据被列为十大管理领域中的重要一项,是做好数据治理的最基础活动。
元数据治理的目标主要包括:
- 提供数据使用方、数据提供方、数据管理方对数据资源一致的可理解的业务定义;
- 采集多源元数据并整合元数据,形成统一元数据中心;
- 提供元数据访问使用的标准方法;
- 保障元数据的质量与安全;
- 开展元数据应用建设,如数据地图、血缘分析等。
元数据治理工作涉及的环节:
- 元数据摸查:元数据要素盘点
- 元数据采集:配置元数据采集任务
- 元数据清洗:元数据清洗转换
- 元数据质量:元数据质量检查及改进
- 元数据应用:数据地图,数据资产,数据血缘
二、元数据摸查/调研
元数据摸查阶段由开发人员对各单位业务系统的元数据、数据中台产生的元数据开展梳理和盘点,形成元数据摸查清单,为后续元数据接入和清洗转换工作提供元数据要素。
介于数据治理环境的特殊性,元数据的调研建议按照两个方向去调研,一是内部数据的元数据信息,二是数源单位的元数据信息。主要包括:
序号 |
元数据类型 |
元数据 |
描述 |
1 |
数源单位元数据 |
部门 |
各业务单位,包括部门名称、编码、职能、地址、接口人等信息 |
2 |
系统 |
各业务部门自建系统,包括系统名称、编码、类型、在用状态、建设厂家等信息 |
|
3 |
数据库 |
包括数据库类型、名称、所属系统、在用状态、版本、IP地址等信息 |
|
4 |
库表 |
包括库表英文名称、中文名称、描述、所属数据库、创建人等信息 |
|
5 |
字段 |
包括字段英文名称、中文名称、描述、类型、长度、值阈、索引、主外键等 |
|
6 |
数据中台元数据 |
数据分层 |
数据中台数据资源库的分层信息,如ODS\DWD等 |
7 |
主题域 |
数据中台数据资源库的主题域信息,如组织域/车辆域/事件域等 |
|
9 |
库表 |
数据中台通过如数据关联、融合等数据治理动作形成的数据资源信息,包括表英文名称、中文名称、描述等 |
|
10 |
字段 |
数据中台通过如数据关联、融合等数据治理动作形成的数据资源所包括字段信息,包括表英文名称、中文名称、描述等 |
|
11 |
指标 |
数据中台通过关联/分析创建和管理的指标信息,包括指标英文名称、中文名称、类目、编码、事实表、口径等 |
|
12 |
接口(API) |
数据中台创建和管理的用于对外数据开放接口(API)信息,包括API名称、编码、表、创建人、状态等 |
|
13 |
治理规则 |
数据中台用于对表模型开展数据治理的规则信息,包括质量规则、安全规则、清单规则、转换规则,包括规则名称、类型、编码、所属表、属性字段、规则、描述等 |
|
14 |
数据共享 |
数据中台的数据共享任务信息,包括共享任务名称、编码、表、共享对象等 |
|
15 |
数据开放 |
数据中台的数据共享任务信息,包括共享任务名称、编码、表、开放对象等 |
|
16 |
ETL任务 |
数据中台ETL任务信息,包括任务类目、名称、编码、状态等 |
通过元数据摸查及调研,形成元数据摸排清单,为后续元数据采集提供基础。
二、元数据采集
根据元数据摸查结果,由开发实施人员在开发或配置元数据采集任务,将元数据采集至元数据管理库,元数据采集的详细信息如下表所示。
序号 |
元数据类型 |
元数据 |
采集方式 |
采集频率 |
1 |
数源单位元数据 |
部门 |
手工填报 |
一次性采集 |
2 |
系统 |
|||
3 |
数据库 |
数据库采集 |
T+1 |
|
4 |
库表 |
T+1 |
||
5 |
字段 |
T+1 |
||
6 |
数据中台元数据 |
数据分层 |
手工填报 |
一次性采集 |
7 |
主题域 |
|||
9 |
库表 |
数据库采集 |
T+1 |
|
10 |
字段 |
T+1 |
||
11 |
指标 |
T+1 |
||
12 |
接口(API) |
T+1 |
||
13 |
治理规则 |
手工填报 |
一次性采集 |
|
14 |
数据共享 |
数据库采集 |
T+1 |
|
15 |
数据开放 |
T+1 |
||
16 |
ETL任务 |
T+1 |
三、元数据清洗
通过定制元数据清洗和转换规则,利用开发平台对采集的元数据开展清洗和转换操作,标准化元数据属性信息,保障元数据质量,元数据清洗转环节包括:
元数据类型 |
元数据 |
清洗内容 |
|
1 |
数源单位元数据 |
部门 |
1.部门名称:根据各部门标准名称进行标准化处理; 2.部门编码、上级部门编码:根据编码规范进行标准化处理; 3.对接联系人:剔除空格字、数字、英文字等特殊字符; 4.对接联系电话:根据ITU-T E.164建议书的规定及我国工信部的规定,我国移动电话号码的组成标准为11位0-9数字结构组成,数据清洗过程中需要进行标准化处理; |
2 |
系统 |
1.系统名称:根据交通厅各部门业务系统名称进行标准化处理; 2.系统编码:根据编码规范进行标准化处理; 3.系统类型:根据系统类型字典进行标准化处理; 4.建设时间:时间类型数据统一依据《GB/T 7408-2005 数据元和交换格式 信息交换 日期和时间表示法》标准,按照“YYYY-MM-DD hh:mi:ss”格式进行标准化处理。 5.厂商联系人:剔除空格字符、数字、英文字等特殊字符; 6.厂商联系方式:根据ITU-T E.164建议书的规定及我国工信部的规定,我国移动电话号码的组成标准为11位0-9数字结构组成,数据清洗过程中需要进行标准化处理; |
|
3 |
数据库 |
1.主机IP、服务IP:IP地址统一采取网络字节序的无符号整型标准化处理; 2.管理者、开发者、运维者:姓名剔除空格字符、数字、英文字等特殊字符;电话号码根据ITU-T E.164建议书的规定及我国工信部的规定,我国移动电话号码的组成标准为11位0-9数字结构组成,数据清洗过程中需要进行标准化处理; |
|
4 |
库表 |
1.所属系统编码:根据编码规范进行标准化处理; 2.模型英文名称:剔除空格字符等特殊字符; 3.更新频度:根据更新频度字典进行标准化处理; 4.数据偏移量:根据数据偏移量字典进行标准化处理; 5. 开发者、运维负责人:剔除空格字符、数字、英文字等特殊字符; |
|
5 |
字段 |
1.字段英文名称:剔除空格字符等特殊字符; 2.是否主键:根据是否主键字典进行标准化处理; 3.是否允许空值:根据是否允许空值字典进行标准化处理; |
|
6 |
数据中台元数据 |
数据分层 |
1.分层编码:根据编码规范进行标准化处理; 2.分层名称:剔除空格字符等特殊字符; |
7 |
主题域 |
1.域编码:根据编码规范进行标准化处理; 2.域名称:剔除空格字符等特殊字符; |
|
9 |
库表 |
1.主机IP、服务IP:IP地址统一采取网络字节序的无符号整型标准化处理; 2.管理者、开发者、运维者:姓名剔除空格字符、数字、英文字等特殊字符;电话号码根据ITU-T E.164建议书的规定及我国工信部的规定,我国移动电话号码的组成标准为11位0-9数字结构组成,数据清洗过程中需要进行标准化处理; |
|
10 |
字段 |
1.字段英文名称:剔除空格字符等特殊字符; 2.是否主键:根据是否主键字典进行标准化处理; 3.是否允许空值:根据是否允许空值字典进行标准化处理; |
|
11 |
指标 |
1.指标状态:根据状态主键字典进行标准化处理; 2.创建人员名称、更新人员名称:剔除空格字符、数字、英文字等特殊字符; 3.创建时间、更新时间:时间类型数据统一依据《GB/T 7408-2005 数据元和交换格式 信息交换 日期和时间表示法》标准,按照“YYYY-MM-DD hh:mi:ss”格式进行标准化处理; |
|
12 |
接口(API) |
1. API编码:根据编码规范进行标准化处理; 2.服务状态:根据服务状态字典进行标准化处理; 3.接口类型:根据接口类型字典进行标准化处理; 4.请求方式:根据请求方式字典进行标准化处理; 5.创建时间:时间类型数据统一依据《GB/T 7408-2005 数据元和交换格式 信息交换 日期和时间表示法》标准,按照“YYYY-MM-DD hh:mi:ss”格式进行标准化处理; 6.创建人员名称、更新人员名称:剔除空格字符、数字、英文字等特殊字符; |
|
13 |
治理规则 |
1.规则编码:根据编码规范进行标准化处理; 2.规则名称:剔除空格字符等特殊字符; |
|
14 |
数据共享 |
1.任务名称:剔除空格字符等特殊字符; 2.任务编码:根据编码规范进行标准化处理; |
|
15 |
数据开放 |
1.任务名称:剔除空格字符等特殊字符; 2.任务编码:根据编码规范进行标准化处理; |
|
16 |
ETL任务 |
1.任务名称:剔除空格字符等特殊字符; 2.系统编码、任务编码:根据编码规范进行标准化处理; 3.任务类型、状态:根据字典进行标准化处理; 4.更新时间、任务触发时间、计划结束时间、更新时间、创建时间:时间类型数据统一依据《GB/T 7408-2005 数据元和交换格式 信息交换 日期和时间表示法》标准,按照“YYYY-MM-DD hh:mi:ss”格式进行标准化处理; 5.创建人姓名、更新人姓名:剔除空格字符、数字、英文字等特殊字符; |
3.1 清洗规则任务化
将数据清洗规则形成数据清洗脚本或任务
3.2 清洗任务周期调度
将数据清洗任务发布上线,并根据元数据的更新周期进行周期任务调度;若发现周期任务中产出的清洗结果数据不满足规则要求预期,则进入问题库,若清洗结果数据满足规则要求预期,则形成标准数据;
3.3 问题数据处置
对进入问题库数据,由数据中台人员进行问题数据处置后,形成标准数据,并将数据写入标准数据层。
3.4 形成标准数据
数据清洗完成后,形成标准数据,并将数据写入标准数据层。
四、元数据质量
元数据质量检查及改造环节对清洗转换后的元数据开展质量检核,发现元数据质量问题,并处置元数据质量问题,形成常态化的质量检查和改造业务闭环。
五、元数据应用
5.1 数据地图
数据地图工具是在统一元数据中心基础上提供的元数据检索分析工具,包括数据检索和数据血缘二个模块,数据检索支持根据元数据中英文搜索和元数据详情;数据血缘基于ETL任务脚本等数据解析出表、字段、API之间的血缘关系,并用图形直观展示。
数据地图工具从宏观层面组织信息,力求以用户视角对信息资产进行归并、整理,提供资产的宏观信息,有效挖掘信息的潜在价值,帮助更好地查找、理解和使用数据。
5.2 血缘分析
数据血缘分析主要解决“数据之间有什么关系”的问题,包括血缘分析和影响性分析。
血缘分析指的是取到数据的血缘关系,以历史事实的方式记录数据的来源,处理过程等。数据血缘分析对于用户具有重要的价值,如:当在数据分析中发现问题数据的时候,可以依赖血缘关系,追根溯源,快速地定位到问题数据的来源和加工流程,减少分析的时间和难度。
影响性分析是能分析出数据的下游流向。当系统进行升级改造的时候,如果修改了数据结构、ETL程序等元数据信息,依赖数据的影响性分析,可以快速定位出元数据修改会影响到哪些下游系统,从而减少系统升级改造带来的风险。从上面的描述可以知道:数据影响性分析和血缘分析正好相反,血缘分析指向数据的上游来源,影响性分析指向数据的下游。
参考文章:
元数据管理之——浅谈元数据管理实施步骤(附实施模板)