MaxCompute+Dataphin

简单粗暴的理解:Dataphin是数据中台的ETL工具,可以对各种的数据源数据进行抽取、清洗。而MaxCompute是云原生的大数据存储服务。所以这两者的结合可以完美的解决企业数据中台的需求。

什么是Dataphin

Dataphin是阿里巴巴数据中台团队研发的数据中台产品,它用于阿里集团(含蚂蚁科技)内部的数据中台建设,即它是阿里巴巴集团自己使用的数据中台产品。。
Dataphin遵循阿里巴巴集团多年实战沉淀的大数据建设体系(OneData、OneEntity、OneService),集产品、技术、方法论于一体,一站式为用户提供集数据引入、规范定义、数据建模研发、数据资产管理、数据服务等的全链路智能数据构建及管理服务。助力*机构和企业打造属于自己的标准统一、资产化、服务化和闭环自优化的智能数据体系,以驱动创新。

Dataphin数据同步支撑了数据上云最基础的能力,只有数据上云才有可能谈论数据中台建设和数字化转型;

Dataphin数据同步定位于数据上云的管道,集成多源异构存储中的数据,构建数据中台建设的基础原料;在数据同步的设计中,首先将多类型存储介质的元数据进行了标准化,基于这种标准化实现了前端配置的一致体验,避免填写大量的JSON文件进行同步配置的定义,简化配置操作,以提升工程师开发阶段的体验;同时,兼顾客户最终价值需求,即数据能够稳定、高效地完成传输,实现上云,因此数据同步设计的过程中也是非常关注数据同步的性能指标;

目前我们已经实现12种来源存储类型以及14种目标存储类型的支持;覆盖了当前客户使用的大多数数据源类型;同时,由于采用插件式的设计方法,对于异构数据源提供了快速扩展的能力;

MaxCompute+Dataphin

按照存储类型划分,保持与DataX定义的标准一致:

  • RDBMS关系型数据库
  1. MySQL
  2. SQL Server
  3. Oracle
  4. PostgreSQL
  5. DRDS
  6. Vertica
  7. 协议支持DB
  • 数仓数据存储
  1. AnalyticDB(只写)
  2. ODPS
  3. Hive
  • NoSQL存储
  1. MongoDB
  2. HBase
  • 无结构化数据存储
  1. HDFS
  2. FTP
  3. ElasticSearch(只写)
    Dataphin数据同步提供了强大的数据传输能力,帮助企业数据高效上云,打破数据孤岛,构建数据中台!

 

什么是MaxCompute

MaxCompute+Dataphin

 

MaxCompute(ODPS)是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效地分析处理海量数据。

随着数据收集手段不断丰富,行业数据大量积累,数据规模已增长到了传统软件行业无法承载的海量数据(TB、PB、EB)级别。MaxCompute提供离线和流式数据的接入,支持大规模数据计算及查询加速能力,为您提供面向多种计算场景的数据仓库解决方案及分析建模服务。MaxCompute还为您提供完善的数据导入方案以及多种经典的分布式计算模型,您可以不必关心分布式计算和维护细节,便可轻松完成大数据分析。

MaxCompute还深度融合了阿里云如下产品:

  • DataWorks

    基于DataWorks实现一站式的数据同步、业务流程设计、数据开发、管理和运维功能。

  • 机器学习PAI

    基于机器学习平台的算法组件实现对MaxCompute数据进行模型训练等操作。

  • Quick BI

    基于Quick BI对MaxCompute数据进行报表制作,实现数据可视化分析。

上一篇:数字营销行业大数据平台云原生升级实战


下一篇:Win10系统下WampServer运行之后显示橙色如何变成绿色的方法