飞天大数据产品价值解读 — SaaS模式云数据仓库 MaxCompute
摘要:企业在数字化转型过程中面临数据技术平台建设和运营的诸多挑战,随着现代化数据仓库向多功能、服务化方向发展演进,技术侧的变革为解决企业数据平台各项挑战带来新的可能。MaxCompute作为阿里云飞天大数据中的数据仓库产品,已经成为了阿里内部及众多的外部客户广泛使用且高度信赖的企业数据平台。本次直播将为您介绍SaaS模式云数据仓库MaxCompute核心能力及优势,并结合大数据分析平台经典使用场景,为您介绍MaxCompute 为企业带来的业务敏捷性、面向分析统一平台、显著降低TCO等关键业务价值。
演讲嘉宾简介:曲宁,阿里云智能产品专家。
以下内容根据演讲视频以及PPT整理而成。
观看回放https://yqh.aliyun.com/live/detail/15429
本次分享主要围绕以下五个方面:
一、飞天大数据平台解决方案
二、MaxCompute:SaaS模式企业级云数据仓库
三、MaxCompute产品价值
四、基于MaxCompute的解决方案及案例介绍
五、总结
一、飞天大数据平台解决方案
企业级数字化转型挑战
目前,企业在数字化转型过程中面临着很多的挑战,这些挑战可以分为几类问题:首先,企业主要以应用为导向,快速的满足业务需求。为了满足不同部门的业务需求,建立了很多数据平台,这些平台缺乏整体规划,形成了很多的数据孤岛,数据共享成本高,缺乏企业级统一的数据获取出口,难以自助分析。
其次,现代企业要求业务团队具备了面向业务快速变化的敏捷创新能力,需要具备数据智能的研发能力,面向用户体验的场景创新能力,都对IT系统提出了更高要求。如何能够满足不同团队对数据分析的要求,满足内部用户的开发使用体验,这个过程中开发效率成为了敏捷创新的阻碍因素,从产品的规划到最终的上线往往横跨数月的时间。
另外,企业过去通过自建大数据平台的方式来获得很强的技术平台掌控能力,但在实际的IDC运营管理过程中会出现运维成本过高的问题,同时因为IT人才成本高、流动大,自建平台存在服务质量不高的情况。企业往往按照业务需求做资源规划,导致日常资源利用率不高,存在很多资源浪费,同时在业务波峰时会产生资源不够的情况。企业自建平台基于开源的组件,会存在系统安全、数据安全及合规方面的问题和隐患。
现代化大数据平台
现代化数据仓库向多功能多服务化演进,技术侧的变革带来了解决企业数字化转型的挑战的可能。现代化大数据平台主要有两个方向,首先是云计算的兴起,逐步往SaaS化方向演进,提供按需分配的计算需求。第二点由于传统的数据仓库难以满足现代化大数据的需求,需要建立实时化的数仓,对非结构化数据进行低成本的分析,同时通过AI能力挖掘更深的价值。
飞天大数据平台解决方案
大数据平台解决方案是一种多产品组合的解决方案,通过多种产品间组合,构建多种多样的数据应用。阿里云采用飞天大数据平台解决方案,此方案适用于电商、游戏、社交等互联网行业数据化运营场景,如智能推荐,日志分析,业务运营分析,用户画像,数据治理,业务大屏以及搜索等。阿里云最佳实践的大数据平台同时具备技术领先性和降本提效,提供业务价值收集等优势。飞天大数据平台解决方案中MaxCompute作为旗舰产品,成为了非常核心的角色。
二、MaxCompute:SaaS模式企业级云数据仓库
MaxCompute产品优势
MaxCompute目前的定位是SaaS模式企业级云数据仓库,MaxCompute服务托管在阿里云上,创建超大规模的资源池,由阿里云进行部署和管理,对外提供API接口,用户使用时通过不同的用户端搜索API的方式访问使用。MaxCompute免去了开通的步骤,开箱即用。其次MaxCompute有超大的资源池,具备按需使用,高弹性的特点。第三点,MaxCompute是存储计算分离的架构,提供结构化的存储,提供按需使用的计算资源。在低成本情况下提供较好的可扩展性。
应用场景
MaxCompute在服务化的场景下,广泛的支持几种场景,首先是to C营销数据分析场景,对用户行为进行收集分析,构建画像,打标签,为用户做更多的服务。还有针对线上的运营活动,实时收集和查询线上运营情况,做运营策略的变更。同时为各行业大家数据仓库,从而构建更多的数据应用。
MaxCompute产品技术特性
第一点:MaxCompute是全托管的Serverless的在线服务,不需要做资源的开通和管理,用户可以用使用近乎无限的计算资源。同时免去了很多工作,由阿里云做统一的版本升级,资源的伸缩和故障的处理,进一步缩减运维上的投入。
第二点:MaxCompute可以提供最好的弹性能力和扩展性,由于存储与计算分离的特点,支持TB到EB数据规模的扩展能力,可以让企业将全部数据资产保存在一个平台上进行联动分析,消除数据孤岛。由于Serverless资源可以实时根据业务峰谷变化带来的需求变化分配资源,进行自动扩展。MaxCompute算力是非常强的,单作业可根据需要秒级获得成千上万Core,当数据级别达到EB级别时,MaxCompute也能很好的支持正常运转。
第三点:MaxCompute融合了数据探索能力,首先MaxCompute与阿里云的warehouse是深度集成的关系,默认集成了对数据湖(如OSS服务) 的访问分析,可以处理非结构化或开放格式数据,还支持外表映射、通过Spark直接访问方式开展数据湖分析。通过数据仓库与外表的映射,在同一套数据仓库服务下和用户接口下,实现数据湖分析和数据仓库的关联分析。第四点:传统的BI能力已经无法满足业务需求,企业更多的需要通过AI能力将数据集成到平台中,支持更多的场景。MaxCompute与PAI无缝集成,提供BI+AI一体化的产品能力,从而提供强大的机器学习处理能力,用户可使用熟悉的Spark-ML开展智能分析,同时可以使用Python机器学习三方库。
第五点:目前,实时分析成为了很火热的话题,MaxCompute也支持流式数据的实时写入(Tunnel),并在数据仓库中开展分析。与云上主要流式服务深度集成,轻松接入各种来源流式数据。MaxCompute可以支持高性能秒级弹性并发查询,满足近实时分析场景。
第六点:MaxCompute支持多种计算引擎,通过内建Apache Spark引擎,提供完整的Spark功能。与MaxCompute计算资源、数据和权限体系深度集成。
第七点:MaxCompute提供统一而丰富的运算能力,包括离线计算(MR,DAG,SQL,ML,Graph)、实时计算(流式,内存计算,迭代计算),涵盖通用关系型大数据,机器学习,非结构化数据处理,图计算等。
第八点:目前,数据中台往往有数据共享的需求,企业的数据资产可以被企业的每个人检索到,每个人知道有哪些数据,同时通过安全合规的权限控制让每个人可以轻松获得企业数据资产,进行进一步的开发。此时则需要数据中台提供统一的元数据视图,MaxCompute通过提供租户级别的统一元数据,让企业能够轻松获得完整的企业数据目录,更进一步,对于更广泛的数据源,通过外表建立数据仓库与外部数据源的连接。如此,数据中台可以做到无需收集所有数据,但是仍然可以为用户提供统一数据视图,满足数据共享的需求。
第九点:MaxCompute不是简单的计算引擎,它是一个完整的服务,因此提供了 SLA保证:99.9%服务可用性保障,支持自助运维与自动化运维,完善的故障容错(软件,硬件,网络,人为)。
三、MaxCompute产品价值
云原生场景
Serverless已经成为了数据平台的发展趋势,Serverless天然的按需分配,高扩展性的能力是解决数据中台问题的最佳的方案。MaxCompute是Serverless的云原生数据仓库服务,提供超大规模的资源市场,用户感知不到资源池,只是需要在逻辑层做项目的开通,数据仓库的自建,数据的建模,在项目空间中做数据分析。MaxCompute是一套非常敏捷的服务模式,极大的降低数据平台的门槛,将以月为单位的数据处理过程降低到天级别,加速价值实现。
示例: 2 min-从开通MaxCompute服务到基于公共数据集运行第一个SQL查询
进入DataWorks管理控制台,点击创建工作空间,输入工作空间名称、点击下一步选择MaxCompute按量付费选项、描述实例名称、选择MaxCompute数据类型及访问身份。
创建完之后进入DataWorks数据开发的如入口中,开始第一个SQL的处理。MaxCompute提供了面向全网的公共数据集,用户都可以进行查询。整个过程从开通到第一个查询只需要两分钟的时间。Serverless意味着更敏捷的业务响应和快速试错、创新。
这种模式带来了两种好处,一种是初创企业可以在低成本的环境下,通过链路快速将商业场景走通,快速验证业务价值。其次,在大企业中,有很多新的组织和部门,他们需要独立的环境进行新颖的开发,MaxCompute可以很好的支持敏捷的场景。
Serverless意味着简单、强大计算能力,无需容量规划、匹配业务快速变化的需求。下图左侧是一个复杂的作业,数据规模非常大,执行单个作业就需要很多资源,MaxCompute可以支持不同规模的数据级,提供强大的算力。
Serverless模式真正实现了按需(On-demand)分配资源,不再以集群或者队列级别进行资源伸缩,以每个作业为单位动态分配合适的资源,无需用户提前容量规划、消除了资源容量与业务需求不能良好匹配的问题。
但是,我们实际接触客户过程中发现,不是所有的作业需要最佳的性能,不同企业、不同阶段以及不同的任务类型,用户会考虑在成本与性能间有不同的取舍。
不同企业算力需求及偏好存在差异,在企业初创时期,数据级不大,成本不高,但是随着数据级的增长,用户增多,成本会非常高,此时MaxCompute可以提供按需使用的弹性算力。不仅如此,MaxCompute还提供包年包月的套餐,满足常规需求,帮助企业稳定财务支出。在企业业务规模较为稳定时,可以购买这类套餐,支持作业优先级,保障关键任务稳定产出。支持存储与计算资源包购买。当面临临时查询需求时,对算力要求非常高,而且不属于周期性需求,MaxCompute通过将多计算资源打通,融合打通包年包月与按需使用的弹性资源,用户只需联合开通,即可实现更优的成本与性能平衡的资源解决方案。最后MaxCompute还可以抢占空闲资源,抢占并使用服务空闲计算资源,此时的价格较包年包月标准计算资源下降74%。
多租户系统
MaxCompute是天然的多租户系统,在多租户环境下保障租户间的隔离性,同时通过细粒度权限控制,实现跨业务、跨组织间进行数据共享。企业不同的组织和部门将数据统一集中在资源池中,实现统一完整的数据资产视图。MaxCompute支持跨项目间的数据访问授权,高效、低成本地在企业内共享数据,实现每个人对企业各项数据资源的受控使用。 MaxCompute已成为业界最完整的安全管理体系,支持跨项目数据安全管理、细粒度的访问控制、数据加密、隐私数据保护、操作使用行为审计能力。
多租户系统有诸多优势同时对多租户平台的安全管理能力也提出了更高的要求。如当下安全事件频发,那么云上大数据服务应如何保障企业数据和服务安全?MaxCompute在平台创立之期就是天然的Serverless和多租户的环境,阿里对MaxCompute内置了大量的安全管理机制,这些安全机制提供了全面、多层次的安全管理能力,持续保护云上数据服务安全。首先是基础设施托管的安全与保障,同时面向访问控制与授权、数据安全、风险管控、多租户安全隔离做了很多管理功能。具体而言,在数据安全方面MaxCompute提供数据加密、实时审计和备份恢复等功能。
示例: 用户异常操作行为实时审计+数据自动备份及恢复
下图中可以发现tab_dev表被删除了,遇到这种情况常见的管理步骤是先检查谁删除了这种表,MaxCompute提供了历史事件查询的页面。
从下图中可以找到tab_dev表是由谁,在什么时间,通过什么操作删除了,方便后续追溯。MaxCompute为用户提供了实时审计能力。
Demo3:持续备份与恢复
在数据丢失之后,重要的数据需要找回。MaxCompute内建了服务级别的自动备份能力,通过如下图中的restore命令,可以找回丢失的数据。
面向分析的统一数据平台
MaxCompute是面向分析的统一数据平台,一个平台满足数据时代的多种需求,简化企业数据平台架构,加速获取深入的业务洞察。MaxCompute具备更实时的数据洞察能力,通过在产品级别打通集成消息服务,采集Datahub自定义日志,实时的获取事件并进行分析。MaxCompute中有很多数据格式,有些数据格式不适合放在同一处,MaxCompute可以提供联邦查询的能力,联动数据库系统,数据不加载在同一个库中, 但是可以提供同一种数据处理平台。MaxCompute是面向分析的数据平台,与 PAI 无缝集成,同时内建主流机器学习框架支持,无需移动数据获得深入洞察分析。
MaxCompute深度集成了Spark,可以实现“一套数据支持多种引擎”,在全托管的统一数据平台上使用主流或者熟悉的计算引擎,可以满足更丰富计算场景的需要。目前很多用户习惯使用Spark引擎,MaxCompute Spark是MaxCompute提供的Apache Spark计算框架,完全兼容Spark的API、应用及生态工具,共享了同样的数据存储,同样的计算资源,同一种数据库管理体系。MaxCompute项目用户,可以在统一的数据存储、权限管控体系内,利用Spark进行应用开发。
现代化的数据仓库 + 数据湖解决方案
数据湖成为了云上数据存储和交换的中心,大量的非结构化数据存放在OSS上,通过外表或者Spark直接与云上数据湖进行很好的打通,做联邦外表的查询,通过load命令将OSS上的数据快速的加载到数据仓库中。MaxCompute可以连接企业多种外部数据源,通过统一、一致的数据管理体系(MaxCompute统一元数据),多种来源的数据可在统一的计算环境中跨孤立存储系统进行无缝数据的访问和处理。
BI+AI集成的一体化数据平台
真实的人工智能场景依赖大数据平台提供数据供给,进行数据预处理。如何在企业统一的数据资产及安全体系之上,同时开展BI分析和AI分析,充分挖掘数据价值? 最理想的状态是不移动数据,将计算与数据解耦合,在一套平台上处理大数据AI的分析。 MaxCompute+PAI是大数据与人工智能融合的分析平台,利用PAI可以很好的处理MaxCompute中的数据,从而支持智能化分析。
高性能低成本的技术底座
数据平台发展到目前为止都是在解决性能、成本、效能等几方面的问题,若对比分析自建平台和MaxCompute中成本的比重,自建平台成本结构主要包括一次性软硬件成本、扩容、管理,运维等等方面的成本。MaxCompute成本结果包括云服务使用成本,但系统管理成本是非常低的。MaxCompute可以极大的减少前期投入,快速验证价值。其次,MaxCompute在30TB及100TB数据级上都可以得到很好的性能,相比于Hadoop自建,成本低一半,性能快一倍,得到了TPC组织的官方认可。MaxCompute可以提供高性能、低成本的大数据分析服务。通过对比IDC自建平台与MaxCompute的成本,MaxCompute可以节省1/3的真实TCO成本。
MaxCompute不止在离线仓上有很强的算力的能力,同时面向BI和集成分析场景,支持弹性并发加速的能力。从下图可以发现,MaxCompute在不同的规模的测试集上都有非常优秀的表现。
开放生态的数据平台
抛开独立的技术平台,离不开周边系统的配套,离不开与企业环境的集成。MaxCompute拥有开放生态的服务,支持与众多服务集成,包括开放的一方服务接口,如MaxCompute Studio IDE、JDBC、SDK、开源Spark Connector、开源Kafka Connector、MMA迁移工具等。同时MaxCompute可以融入企业已有的IT环境中,与阿里云众多的服务进行深度的集成,包括DataWorks、PAI、Quick BI、Datahub、DTS、日志服务、阿里云Kafka等,最大化降低数据链路集成工作。MaxCompute 还集成了很多第三方的服务,包括Tableau、R、Python、Python SDK等,最终提升开发效率。阿里云提供了完整的大数据产品解决方案,包括数据的采集,实时离线一体化计算、数据应用的展示,以MaxCompute 作为数据仓库的底座可以快速的与阿里云多个产品集成,满足企业的智能化应用需求。
企业级可治理的数据管理平台
当企业发展到一定规模后,必然会遇到数据治理问题。数据与业务增长并不是线性关系,数据是指数级增长,业务是平滑增长。各个数据平台打通之后,数据治理的成本越来越高。阿里巴巴大数据治理最佳实践,提供数据发现机制,支持统一元数据采集与数据资产目录构建支持数据探查与数据分析、联邦查询以及资源优化服务,让企业更方便地探查数据价值,更有效的统一元数据管理,更安全的生产数据,更智能的优化大数据成本。以数据存储为例,很多数据存储在数据仓库中但无法使用,有些作业没有计算,有些作业重复计算,阿里通过自动化方式,围绕引擎采集第一手数据,提供多领域多视角优化视图。
四、基于MaxCompute的解决方案及案例介绍
MaxCompute能够解决自建数据平台的痛点问题
自建平台面临着很多的挑战,包括建设成本高、扩展性与弹性不足、资源利用率低、运维维护成本高等。MaxCompute 云上的服务可以很大程度上解决云下的痛点问题。因此,迁移上云(MMA)已经成为了比较成熟的解决方案,主要包括数据迁移的评估,数据迁移,作业迁移转换等,从而将自建平台迁移到云上,使得MaxCompute 云上服务的特性和优势被企业所用。
大数据上云解决方案
大数据搬站是云上生态体系的融和与升级,阿里云就可以提供一套完整的飞天大数据平台解决方案。某母婴行业头部客户在自建数据平台是遇到了很多的痛点,包括集群水位高、性能差、亟待大数据综合治理。同时IDC大数据每年投入成本高,希望降本提效。阿里云从大数据平台上云整体“降本增效”的方案快速切入,迁移到大数据MaxCompute、实时计算、
DataWorks 后,部分任务有10倍以上的性能提升,将开源数据格式进行转换,存储从自建Hadoop 3PB降到900T,利用Flink实时数据处理能力,将母婴客户现有的场景实时化(“基于用户ID维度和内容类型的实时行为”、“获取用户的实时群聊ID”及“获取文章的实时发布信息”),并且基于Flink进行实时推荐增加转化率。大数据平台整体成本节省了30%以上。
智能实时数仓解决方案
智能实时数仓解决方案适用于电商、游戏、社交等互联网行业大规模数据实时查询场景。方案优势包括阿里云实时数仓全套链路,与离线数仓无缝打通。满足一套存储,两种计算(实时计算和离线计算)的高性价比组合。某视频行业客户基于MaxCompute+Realtime Compute+Hologres的组合,做目标用户标签数据开发、用户画像实时洞察、实时视频推荐等工作。MaxCompute开箱即用、完善生态、性能强悍、弹性资源的特性使得客户可以最大化的平衡成本和弹性的需要。基于MaxCompute可以支持数据分层、反作弊、计算优化、存储优化等场景。
MaxCompute产品规格
MaxCompute提供按量计费能力,用户初期使用时,建议选择按量计费,根据业务的变化,匹配资源,开通后不使用时无费用产生。当用户业务比较成熟时,建议选择包年包月,单价更低,享受更多折扣,控制相关预算和成本。
收费标准
按量计费中依然提供极致的弹性计算资源,资源池为共享型,计算任务按需抢占,不可指定使用量也无使用限制。当前仅SQL、MR、Spark、交互式分析几类计算任务有计费。存储资源只收表(Table)存储的容量费用。且容量大小是压缩后的数据。存储资源中的资源池为共享型,按需存储,无使用限制。包括表(Table)和资源(Resource)等存储。数据上传至MaxCompute为免费,仅对通过公网下载,进行按量收费。包年包月标准版中的计算资源包含计算资源单元和非预留计算资源两种。包年包月套餐版中包含了计算和存储两部分费用,买一份套餐,存储资源不需要额外计费。
五、总结
MaxCompute作为阿里云飞天大数据中的数据仓库产品,已经成为了阿里内部及众多的客户广泛使用且高度信赖的企业数据平台。同时,MaxCompute可以满足现代企业数字化多种需求。基于MaxCompute,企业可以构建低成本、高效能的敏捷数据平台。MaxCompute有超大规模数据存储能力,将企业多源数据集中在一起,统一数据资产,在企业内部使得每位员工在安全共享的环境下使用和分析数据,从而赋能数据驱动的组织变革。MaxCompute是数据仓库及数据中台的理想技术底座。
MaxCompute产品官方地址:https://www.aliyun.com/product/odps
注:想了解更多阿里巴巴大数据计算服务MaxCompute,可以加入社群一起交流。