MaxCompute（原ODPS）开发入门指南——数据上云篇

2021-09-13 10:43:32

MaxCompute（原ODPS）开发入门指南——数据上云篇

写在最前面

>>>进入了解更多>>>阿里云数加·MaxCompute大数据计算服务.

根据《MaxCompute（原ODPS）开发入门指南——计量计费篇》的了解，大家清楚了MaxCompute可以做什么，计费模式如何，想必大家也开通了MaxCompute想进行一次POC，但是大家遇到第一个问题一定是我的数据如何上云？

可通过多种方式数据流入MaxCompute

MaxCompute（原ODPS）提供了多种通道数据可以流入MaxCompute，包括MaxCompute原生的Tunnel，以及阿里云体系内的Log、DataX和数据集成，以及开源生态中的Flume、Logstash和Fluentd。以下为大家一一道来，大家视各自情况进行选择。

① MaxCompute Tunnel命令

直接在MaxCompute客户端中使用Tunnel命令进行数据上传，数据在传输过程中都是加密传输的，适用于一次性批量数据导入。

注意的是每一次上传只支持数据上传到一个表或表的一个分区，有分区的表一定要指定上传的分区。

数据上传命令如下：

tunnel upload log.txt test_project.test_table/p1="b1",p2="b2";

如何配置客户端和使用命令：

② MaxCompute Tunnel SDK

通过 TUNNEL 提供的 SDK 自行编写 Java 工具。

关于如何利用 tunnel SDK 进行上传数据，下面也将通过场景介绍。场景描述：上传数据到 MaxCompute，其中，项目空间为”odps_public_dev”，表名为”tunnel_sample_test”，分区为”pt=20150801,dt=hangzhou”。

详细的Tunnel SDK案例教学

③ LOG（阿里云日志分析产品）

了解更多关于日志分析产品。

日志服务（Log Service，简称 Log）是针对日志类数据的一站式服务，在阿里巴巴集团经历大量大数据场景锤炼而成。您无需开发就能快捷完成日志数据采集（Logtail）、消费、投递（LogShipper）以及查询分析（LogSearch）等功能，提升运维、运营效率，建立 DT 时代海量日志处理能力。

通常情况下，在使用开源的产品时都需要自己写正则来进行日志采集和结构化，通过Lo*品可以进行可视化取词来选择自己需要解析的字段值,同时也提供手工方式输入正则表达式，如下图：

在大家场景中，尝尝需要将日志进行实时采集，然后归档到MaxCompute进行数据分析与挖掘，Lo*品覆盖了： Nginx， Apache， Log4J ，Wordpress ， Python， NodeJS，分隔符 (Delimiter, 如 CSV、TSV 等格式)、logstash ， ThinkPHP， IIS（Windows 平台，默认格式）/logstash等。>>>常见日志格式

大部分情况下日志数据在写入LogStore后的0.5~1个小时导入到MaxCompute，具体归档的帮助文档详见：>>>Log数据归档到MaxCompute

点击进入：更多关于Lo*品使用指南

④ DTS-数据传输

数据传输(Data Transmission)服务DTS是阿里云提供的一种支持RDBMS(关系型数据库)、NoSQL、OLAP等多种数据源之间数据交互的数据服务。它提供了数据迁移、实时数据订阅及数据实时同步等多种数据传输能力。

创建RDS for Mysql数据实时同步到MaxCompute，实现原理如下：

如上图所示，整个同步过程分为两步：

全量初始化，这个步骤将RDS MySQL中已经存在的全量数据初始化到MaxCompute中。对于同步的每个表，全量初始化的数据都会独立存储在MaxCompute中的全量基线表中，这个表的默认格式为：源表名_base。例如表 t1，那么全量基线表在MaxCompute中存储的表名为：t1_dts_base。这个存储表名前缀可以根据需要变更，您可以在配置任务时，修改表在MaxCompute存储的名称。
增量数据同步，这个步骤将RDS MySQL产生的增量数据数据实时同步到MaxCompute中。并存储在增量日志表中，每个同步表对应一个增量日志表。增量日志表在MaxCompute中存储的表名的默认格式为：源表名_log。这个存储表名前缀可以根据需要变更，您可以在配置任务时，修改表在MaxCompute存储的名称。

只支持表的同步，不支持其他非表对象如视图的同步。

建议大家可以尝试下使用DTS来做数据的增量同步。具体详细的操作文档详见：创建RDS到MaxCompute数据实时同步作业

⑤ 开源产品：Flume / Logstash / Fluentd

目前开源产品都是提供output插件将数据写入DataHub（目前免费公测中）再数据归档到MaxCompute上。如下图：

个人觉得这几款开源产品与阿里云自研的Log日志分析产品在日志采集上类似，但是Flume、Logstash、Fluentd需要一定技术能力的同学方可快速上手，需要手动编写日志格式化的正则表达式，在这一点上，让一些新手趋之若鹜。大家可以考虑下Log直接上手。

Apache Flume是一个分布式的、可靠的、可用的系统，可用于从不同的数据源中高效地收集、聚合和移动海量日志数据到集中式数据存储系统，支持多种Source和Sink插件。Apache Flume的Datahub Sink插件将日志数据实时上传到Datahub。具体操作详见：通过Flume采集数据至MaxCompute
Logstash是一种分布式日志收集框架，非常简洁强大，经常与ElasticSearch，Kibana配置，组成著名的ELK技术栈，非常适合用来做日志数据的分析。阿里云流计算为了方便用户将更多数据采集进入DataHub，提供了针对Logstash的DataHub Output/Input插件。具体操作详见：通过Logstash采集数据至MaxCompute
Fluentd也是大家经常接触到的分布式日志采集系统，该插件是基于Fluentd开发的输出插件，主要是将采集到的数据写入DataHub。该插件遵守Fluentd输出插件开发规范，安装方便，可以很方便地将采集得到的数据写到DataHub。具体操作详见：通过Fluentd采集数据至MaxCompute

[总结]三款产品都是不错的选择，需要根据个人使用习惯进行选择，我自己也习惯使用Logstash所以也写过一些真是case的文章《构建网站日志实时运营大屏》，从日志采集-->Logstash采集-->DataHub技术栈。

⑥ DataX、数据集成（Data IDE数据采集）

之所以将DataX和Data IDE数据采集放在一起给大家介绍，是因为两者之间密不可分，但是又有着巨大差别。

DataX阿里巴巴集团内被广泛使用的离线数据同步工具/平台，目前已经开源DataX。具体使用可以详见：DataX配置及使用，如下图：

Data IDE是基于MaxCompute之上的大数据开发套件，其中数据采集模块完美的支持了DataX的所有数据通道。可以进入详细了解：数据采集模块

【相同点】：Data IDE数据采集模块是基于DataX平台之前构建的可视化配置+调度系统，支持的数据通道完全一致。【不同点】：DataX需要自己本机或服务器上配置josn文件和自己编写crontab进行调度运维。

建议：大家直接使用大数据开发套件-数据采集工具，因为大数据开发套件Data IDE提供了一整套的数据仓库工具解决方案，从数据采集到数据加工以及后续的调度运维等。关键是免费！免费！免费！

* 支持的数据通道：

数据源分类	数据源类型	抽取(Reader)	导入(Writer)	支持方式	支持类型
大数据存储	MaxCompute（对应数据源名称是 ODPS）	支持	支持	向导/脚本	阿里云
大数据存储	AnalyticDB（对应数据源名称ADS）	不支持	支持	向导/脚本	阿里云
关系型数据库	MySQL	支持	支持	向导/脚本	阿里云/自建
关系型数据库	SQL Server	支持	支持	向导/脚本	阿里云/自建
关系型数据库	PostgreSQL	支持	支持	向导/脚本	阿里云/自建
关系型数据库	Oracle	支持	支持	向导/脚本	自建
关系型数据库	DRDS	支持	支持	向导/脚本	阿里云
关系型数据库	DB2	支持	支持	脚本	自建
关系型数据库	达梦（对应数据源名称是 dm）	支持	支持	脚本	自建
关系型数据库	RDS for PPAS	支持	支持	脚本	阿里云
MPP	HybridDB for MySQL	支持	支持	向导/脚本	阿里云
MPP	HybridDB for PostgreSQL	支持	支持	向导/脚本	阿里云
非结构化存储	OSS	支持	支持	向导/脚本	阿里云
非结构化存储	HDFS	支持	支持	脚本	自建
非结构化存储	FTP	支持	支持	向导/脚本	自建
NoSql	HBase	支持	支持	脚本	阿里云/自建
NoSql	MongoDB	支持	支持	脚本	阿里云/自建
NoSql	Memcache	不支持	支持	脚本	阿里云/自建Memcached
NoSql	Table Store（对应数据源名称是OTS）	支持	支持	脚本	阿里云
NoSql	LogHub	不支持	支持	脚本	阿里云
NoSql	OpenSearch	不支持	支持	脚本	阿里云
NoSql	Redis	不支持	支持	脚本	阿里云/自建
性能测试	Stream	支持	支持	脚本

码农公寓