1.场景描述
- 自建数据湖与云数仓的融合解决方案,MaxCompute与自建的Hive集群做数据打通,通过存储共享,元数据镜像等方式,解决传统模式下的存储冗余,计算资源弹性能力弱的痛点。可大幅度增强系统的资源弹性,解决业务高峰期计算资源不足的问题。
2.方案优势
- 业务无侵入性:现有业务无需改造。
- 性能优化:MaxCompute在SQL上做了大量优化与能力沉淀,可提高SQL运行性能,降低计算成本。
- 灵活管理:元数据实时同步,无需额外管理数据同步任务。
- 资源弹性:利用MaxCompute计算池弹性进行海量数据计算。
3.部署架构图
4.选用的产品
- VPC:专有网络VPC(Virtual Private Cloud)是用户基于阿里云创建的自定义私有网络, 不同的专有网络之间二层逻辑隔离,用户可以在自己创建的专有网络内创建和管理云产品实例,比如ECS、负载均衡、RDS等。更多信息,请参见:www.aliyun.com/product/vpc
- ECS:云服务器ECS(Elastic Compute Service)是一种简单高效、处理能力可弹性伸缩的计算服务。帮助您构建更稳定、安全的应用,提升运维效率,降低IT成本,使您更专注于核心业务创新。更多信息,请参见:www.aliyun.com/product/ecs
- OOS:运维编排服务(Operation Orchestration Service,简称OOS)能够自动化管理和执行运维任务。在待执行模版中,您可定义运维任务、执行流程、执行的输入和输出等,然后仅需执行模版即可实现自动化运维。
- MaxCompute:MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。更多信息,请参见:www.aliyun.com/product/odps
- CEN:云企业网(Cloud Enterprise Network)帮助您在VPC间,VPC与本地数据中心间搭建私网通信通道,通过自动路由分发及学习,提高网络的快速收敛和跨网络通信的质量和安全性,实现全网资源的互通,帮助您打造一张具有企业级规模和通信能力的互联网络。
- HDFS:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分目录布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
- Apache Hive:Apache Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
- ZooKeeper:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
5.详细信息
- 点击这里,查看MaxCompute湖仓一体方案最佳实践详情。
6.更多更佳实践
- 点击这里,查看更多阿里云最佳实践。
我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。