大数据近实时数据投递MaxCompute

大数据近实时数据投递MaxCompute

1.场景描述

本文介绍离线大数据场景使用MaxCompute构建云上近实时数仓,打通云下数据上云链路,解决数据复杂类型支持和动态分区问题,满足高级数据处理需求的最佳实践。

2.解决问题

  • 混合云环境下,现有业务系统零改造,打通数据上云链路。
  • 使用UDF实现复杂数据类型转换和数据动态分区。
  • 使用DataWorks配置周期调度业务流程,数据自动入仓。
  • 借助MaxCompute优化计算引擎,实现降本增效。

3.部署架构图

大数据近实时数据投递MaxCompute

图1:部署架构示意图

4.选用的产品

  • 云服务器ECS:Elastic Compute Service,简称ECS,是一种简单高效、处理能力可弹性伸缩的计算服务。详见:https://www.aliyun.com/product/ecs
  • 专有网络VPC:Virtual Private Cloud,简称VPC,- 是基于阿里云创建的自定义私有网络,不同的专有网络之间二层逻辑隔离。您可以在自己创建的专有网络内创建和管理云产品实例,比如ECS、负载均衡、RDS等。在部署云资源前,您需要结合具体业务,规划VPC和交换机的数量及网段等。详见:https://www.aliyun.com/product/vpc
  • 访问控制RAM:是阿里云提供的管理用户身份与资源访问权限的服务。详见:https://www.aliyun.com/product/ram
  • E-MapReduce EMR:是构建在阿里云云服务器ECS 上的开源Hadoop、Spark、HBase、Hive、Flink 生态大数据PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。详见:https://www.aliyun.com/product/emapreduce
  • 大数据计算服务MaxCompute:是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效地分析处理海量数据。详见:https://www.aliyun.com/product/odps
  • 数据总线DataHub:是阿里云提供的流式数据(Streaming Data)服务,它提供流式数据的发布(Publish)和订阅(Subscribe)的功能,让您可以轻松构建基于流式数据的分析和应用。详见:https://www.aliyun.com/product/datahub
  • DataWorks:是一个提供了大数据OS能力、并以all in one box的方式提供专业高效、安全可靠的一站式大数据智能云研发平台。同时能满足用户对数据治理、质量管理需求,赋予用户对外提供数据服务的能力。详见:https://www.aliyun.com/product/bigdata/ide

5.详细信息

  • 点击这里,查看大数据近实时数据投递MaxCompute最佳实践详情。

6.更多更佳实践

  • 点击这里,查看更多阿里云最佳实践。

我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。

大数据近实时数据投递MaxCompute

上一篇:SQL创建数据库的基本语法


下一篇:2017年度TOP 10大数据应用最佳实践 案例征集活动最新启动