一.血缘关系是什么?为什么要分析血缘关系?
首先,什么是血缘关系?
是指在数据的全生命周期中,从数据的产生、处理、加工、融合、流转到最终消亡,数据之间自然形成的一种类似人类血缘的关联关系。
说的再简单直白一点就是我们的表是由哪些表分析得出的。
血缘关系有四大特性:归属性、多源性、可追溯及层次性
归属性:一般来说,特定的数据归属于特定的组织或者个人。
多源性:同一个数据可以有多个来源(多个父亲);一个数据也可以是多个数据经过加工生成的,而且这种加工过程可以是多个。
可追溯性:数据的血缘关系体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。
层次性:数据的血缘关系是有层次的。对数据进行分类、归纳、总结等描述信息又会形成新的数据,不同程度的描述信息形成了数据的层次。
数据血缘产生最本质的需求。大数据开发作为数据汇集与数据服务提供方,庞大的数据与混乱的数据依赖导致管理成本与使用成本飙升。
而在我的数仓文章中:
离线数仓项目实战!其二导入数据与数据仓库维度建模_离线数仓互联网金融项目-****博客
离线数仓项目实战!其三项目剩下的维度建模、任务调度与datagear可视化分析-****博客
我对数仓中的表进行血缘分析时是用Excel逐一对比的,如图:
‘
非常的麻烦和费劲,而且由于表字段也比较多,也不能用线条去一一对应,因此最近去了解学习了一下血缘关系和具体的相关软件。
二.软件使用,马哈鱼数据血缘分析软件(不是很推荐)
官网:
SQLFlow 马哈鱼数据血缘分析工具,专业数据治理团队的选择 - SQLFlow
试用页面:
SQLFlow: Visualize column impact and data lineage to track columns across transformations by analyzing SQL query. (gudusoft.com)
如图选择 数据库,放入SQL语句,最后选择分析:
分析如图:
并且可以选择设置分析条件:
ER图和字段位置:
为什么不推荐使用?
如图他可以选择连接本地数据库,或是上传文件进行分析。
但是经过我的尝试我发现连接不上,不仅是我的虚拟机hive连接不上而且就连我本地的mysql也连接不上,我去官网查看使用说明发现可能是账户不是付费用户。
于是进入它的免费试用申请:
点击提交无法申请,点击半天也没动静。因此综上我认为马哈鱼用起来并不舒服不推荐使用。
三.软件使用,Datablau(国产血缘分析)
官网:企业简介 - Datablau - 数语科技
在线使用:Datablau SQLink 血缘解析工具
也可以免费试用,但是会打电话访问,介意的话就直接使用网页版:
页面上的名词解释:
DDM
指的是分布式数据库中间件(Distributed Database Middleware),是华为云提供的服务之一,它使用华为关系型数据库(RDS)作为存储引擎,为应用提供透明、高效、可靠的分布式数据库访问能力。
DAM
指的是数字资产管理(Digital Asset Management)专门用于管理和存储数字资产(如图片、视频、音频、文档等)的系统。
DDC
分布式数据中心(Distributed Data Center)在数据中心和云计算领域,DDC还可能指分布式数据中心。分布式数据中心是传统IDC的升级方案,也是下一代超高速网络的信息基础设施。
DDS
分布式数据系统(Distributed Data Systems)定义:DDS也可以指分布式数据系统,是一种用于数据的分布式管理和通信的系统。其核心在于数据的分布性和实时性。
Datablau D3
Datablau D3是一款专业的数据开发管理工具,它将数据需求、模型设计、模型管控、数据开发、数据运维、项目交付、数据治理融为一体。
DDM Archy
DDM Archy是基于Datablau DDM推出的一个架构建模套件产品。适用于各种需要高效管理数据架构和资产的场景,如金融、电商、医疗、教育等行业的数据仓库建设、数据挖掘、数据分析等。
SQLink
通过SQL Link,可以在不同数据库之间建立连接,实现数据的共享和交互。这种技术通常用于在不同的数据库中进行数据查询和操作,使得不同数据库之间的数据可以互相访问和交换。
如图我还以为是跟阿里云之类的申请就可以直接用一段时间,但是还要 电话联系,如果知道的话就不申请了。
页面如下:
能看出来页面都大差不差,但是当然还是使用汉字的更舒服。而且对于我们个人学习使用来说,这网页的功能也足够使用了。
网页仅有两个操作: