MaxCompute+Dataphin

2024-04-09 20:56:05

简单粗暴的理解：Dataphin是数据中台的ETL工具，可以对各种的数据源数据进行抽取、清洗。而MaxCompute是云原生的大数据存储服务。所以这两者的结合可以完美的解决企业数据中台的需求。

什么是Dataphin

Dataphin是阿里巴巴数据中台团队研发的数据中台产品，它用于阿里集团（含蚂蚁科技）内部的数据中台建设，即它是阿里巴巴集团自己使用的数据中台产品。。
Dataphin遵循阿里巴巴集团多年实战沉淀的大数据建设体系（OneData、OneEntity、OneService），集产品、技术、方法论于一体，一站式为用户提供集数据引入、规范定义、数据建模研发、数据资产管理、数据服务等的全链路智能数据构建及管理服务。助力*机构和企业打造属于自己的标准统一、资产化、服务化和闭环自优化的智能数据体系，以驱动创新。

Dataphin数据同步支撑了数据上云最基础的能力，只有数据上云才有可能谈论数据中台建设和数字化转型；

Dataphin数据同步定位于数据上云的管道，集成多源异构存储中的数据，构建数据中台建设的基础原料；在数据同步的设计中，首先将多类型存储介质的元数据进行了标准化，基于这种标准化实现了前端配置的一致体验，避免填写大量的JSON文件进行同步配置的定义，简化配置操作，以提升工程师开发阶段的体验；同时，兼顾客户最终价值需求，即数据能够稳定、高效地完成传输，实现上云，因此数据同步设计的过程中也是非常关注数据同步的性能指标；

目前我们已经实现12种来源存储类型以及14种目标存储类型的支持；覆盖了当前客户使用的大多数数据源类型；同时，由于采用插件式的设计方法，对于异构数据源提供了快速扩展的能力；

按照存储类型划分，保持与DataX定义的标准一致：

RDBMS关系型数据库

MySQL
SQL Server
Oracle
PostgreSQL
DRDS
Vertica
协议支持DB

数仓数据存储

AnalyticDB（只写）
ODPS
Hive

NoSQL存储

MongoDB
HBase

无结构化数据存储

HDFS
FTP
ElasticSearch（只写）
Dataphin数据同步提供了强大的数据传输能力，帮助企业数据高效上云，打破数据孤岛，构建数据中台！

什么是MaxCompute

MaxCompute（ODPS）是适用于数据分析场景的企业级SaaS（Software as a Service）模式云数据仓库，以Serverless架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效地分析处理海量数据。

随着数据收集手段不断丰富，行业数据大量积累，数据规模已增长到了传统软件行业无法承载的海量数据（TB、PB、EB）级别。MaxCompute提供离线和流式数据的接入，支持大规模数据计算及查询加速能力，为您提供面向多种计算场景的数据仓库解决方案及分析建模服务。MaxCompute还为您提供完善的数据导入方案以及多种经典的分布式计算模型，您可以不必关心分布式计算和维护细节，便可轻松完成大数据分析。

MaxCompute还深度融合了阿里云如下产品：

DataWorks
基于DataWorks实现一站式的数据同步、业务流程设计、数据开发、管理和运维功能。
机器学习PAI
基于机器学习平台的算法组件实现对MaxCompute数据进行模型训练等操作。
Quick BI
基于Quick BI对MaxCompute数据进行报表制作，实现数据可视化分析。

码农公寓

简单粗暴的理解：Dataphin是数据中台的ETL工具，可以对各种的数据源数据进行抽取、清洗。而MaxCompute是云原生的大数据存储服务。所以这两者的结合可以完美的解决企业数据中台的需求。

什么是Dataphin

什么是MaxCompute

相关文章