数据治理方案技术调研 Atlas VS Datahub VS Amundsen

2024-02-13 23:41:58

数据治理意义重大，传统的数据治理采用文档的形式进行管理，已经无法满足大数据下的数据治理需要。而适合于Hadoop大数据生态体系的数据治理就非常的重要了。

大数据下的数据治理作为很多企业的一个巨大的难题，能找到的数据的解决方案并不多，但是好在近几年，很多公司已经进行了尝试并开源了出来，本文将详细分析这些数据发现平台，在国外已经有了十几种的实现方案。

数据发现平台可以解决的问题

在数据治理过程中，经常会遇到这些问题：数据都存在哪？该如何使用这些数据？数据是做什么的？数据是如何创建的？数据是如何更新的？

。。。。。

数据发现平台的目的就是为了解决上面的问题，帮助更好的查找，理解和使用数据。

比如Facebook的Nemo就使用了全文检索技术，这样可以快速的搜索到目标数据。

用户浏览数据表时，如何快速的理解数据？一般的方式是把列名，数据类型，描述显示出来，如果用户有权限，还可以预览数据。

下面是Amundsen的数据列展示功能。

数据ETL是一个大问题，特别是如何把这些展示出来更是非常难，其实数据的ETL是可以用数据的流向图表示的，很多平台都支持这种功能，比如 Databook，还有Metcat。

Amundsen就和数据调度平台Airflow有着非常好的结合。

下面一张表对比一下各大平台对于上述功能的支持情况

	搜索	推荐	表描述	数据预览	列统计	占用指标	权限	排名	数据血统	改变通知	开源	文档	支持数据源
Amundsen (Lyft)	✔	✔	✔	✔	✔		✔	✔	Todo		✔	✔	Hive, Redshift, Druid, RDBMS, Presto, Snowflake, etc.
Datahub (LinkedIn)	✔		✔				✔	✔	✔		✔	✔	Hive, Kafka, RDBMS
Metacat (Netflix)	✔		✔		✔	✔		Todo		Todo	✔		Hive, RDS, Teradata, Redshift, S3, Cassandra
Atlas (Apache)	✔		✔						✔	✔	✔	✔	HBase, Hive, Sqoop, Kafka, Storm
Marquez (Wework）	✔		✔						✔		✔		S3, Kafka
Databook (Uber)	✔		✔	✔	✔				✔				Hive, Vertica, MySQL, Postgress, Cassandra
Dataportal (Airbnb)	✔		✔		✔		✔	✔					Unknown
Data Access Layer (Twitter)	✔		✔						✔				HDFS, Vertica, MySQL
Lexikon (Spotify)	✔	✔	✔				✔	✔					Unknown