开发者学堂课程【SaaS 模式云数据仓库系列课程 —— 2021 数仓必修课:Saas 模式云数据仓库 MaxCompute 产品 价值解读】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/55/detail/1026
Saas 模式云数据仓库 MaxCompute 产品价值解读
l 企业数字化转型面临的挑战
企业为了使用数据驱动业务发展,在建设和运营企业数据仓库时面临的问题。
现代化的数据仓库向多功能的服务化演进,技术侧的改革带来了解决问题的可能。规模、成本、业务效能始终是数据管理和分析平台的核心问题。
现代化大数据平台:
1. 数据规模持续增长(IOT 和 AI 驱动):计算力成本需要持续降低
2. 成为企业的核心依赖:可靠性、安全性、稳定性;企业级功能支持(账号系统和权限管理体系)
3. 基于云+云原生:High Scalability、Lower TCO
4. 一份数据,BI 与 AI集成:
Support Structured and Unstructured Data;Support AI work load natively
5. 快速获得价值实现和深度洞察(Time-to-Value/Insight from Data):数据中台Data Middle Office;自动化数仓Auto Data Warehouse
l 飞天大数据平台解决方案
方案说明:
适于电商、游戏、社交等互联网行业数据化运营,如智能推荐、日志采集分析、用户画像、数据治理、业务大屏、搜索等场景。
方案优势:
阿里巴巴最佳实践的大数据平台,技术领先性、降本提效和高附加值业务收益。
涉及产品:
日志服务SLS、数据传输DTS、DataHub、实时计算Flink、交互式分析、云数仓MaxCompute、数据治理DataWorks、Quick BI 报表、DataV大屏、ES搜索、机器学习PAI。
l MaxCompute:Saas模式企业级云数据仓库
应用场景:
1. 广告场景-用户标签计算、分析
2. 业务运营场景-业务指标计算、查询
3. 各行业搭建书记仓库
4. 云上弹性扩展大数据计算和储存
产品优势:
1. 云原生极致弹性:云原生设计,无服务器架构,支持秒级弹性伸缩,快速实现大规模弹性负载需求
2. 简单易用多功能计算:预置多种计算模型和数据通道能力,开通即用
3. 企业级平台服务:支持开放生态,提供企业级安全管理能力。与阿里云众多大数据服务无缝集成
4. 安全:多租户环境下安全控制能力强
5. 大规模集群性能强、全链路稳定性高,阿里巴巴双11场景验证
推荐组合:
l BI分析场景-
MaxCompute+Hologres+Flink+DataWorks+Quick BI
l 机器学习场景-MaxCompute+PAI+DataWorks
l MaxCompute产品技术特性
全托管的Serverless的在线服务:
l 对外以API方式访问的在线服务,开箱即用
l 预铺设的大规模集群资源,近乎无线资源,按需使用和付费
l 无需平台运维,最小化运维投入
弹性能力与扩展性:
l 储存和计算独立扩展,支持TB->EB数据规模的 扩展能力,可以让企业将全部数据资产保存在一个平台上进行联动分析,消除数据孤岛
l Servlerss资源,实时根据业务峰谷变化带来的需求变化分配资源自动扩展
l 单作业可根据需要秒级获得成千上万Core
数据湖探索分析:
l 默认集成对数据湖(如OSS服务)的访问分析,处理非结构化或开放格式数据
l 支持外表映射、Spark直接访问方式开展数据湖分析
l 对用户友好:在同一套数据仓库服务下和用户接口下,实现数据湖分析和数据仓库的关联分析
集成AI能力:
l 与PAI无缝集成,提供强大的机器学习处理能力
l 可使用用户熟悉的Spark-ML开展智能分析
n 用Python机器学习三方库
支持流式采集和近实时分析:
l 支持流式数据的实时写入(Tunnel)并在数据仓库中开展分析
l 与云上主要流式服务深度集成,轻松接入各种来源流式数据
l 高性能秒级弹性并发查询,满足近实时分析场景
深度集成Spark引擎:
l 内建Apache Spark引擎,提供完整的Spark功能
l 与MaxCompute计算资源、数据和权限体系深度集成
统一而丰富的运算能力:
l 离线计算(MR,DAG,SQL,ML,Graph)
l 实时计算(流式,内存计算,迭代计算)
l 涵盖,通用关系型大数据,机器学习,非结构化数据处理,图计算
提供统一的企业数据视图:
l 提供租户级别的统一元数据,让企业能够轻松获得完整的企业数据目录
l 对于更广泛的数据源,通过外表建立数据仓库与外部数据源的连接,Connect not Collect
企业级服务:
l SLA保证:99.9%服务可用性保障
l 自助运维与自动化运维
l 完善的故障容错(软件,硬件,网络,人为)
l MaxCompute的产品价值
1. Serverless云原生服务,解决传统自建数据平台的痛点问题
2. 多租户体系下安全、可靠的平台底座,企业数据仓库/中台理想技术平台
3. 统一分析平台,一套服务+多种功能,简化企业数据平台架构,加速获取深入的业务洞察
4. 高性能、低成本,带来了财务支出的灵活性和业务敏捷性,降低TCO
5. 提供完整生态和最佳实践,可快速构建完整的云上大数据解决方案,可持续治理
Serverless架构的数据仓库是业界的发展趋势,是解决扩展性和弹性的最佳方案。
MaxCompute是Serverless的云原生数据仓库服务,能够极大降低创新门槛、加速价值实现。
扩展性&弹性
l 大规模计算资源预先部署的“在线服务”,用户无需资源开通、无需扩容缩容
l 弹性:作业级别自动伸缩:根据每个作业的不同,秒级自动分配资源大小
l 超级算力:MaxCompute根据作业需要可分配超级弹性,MaxCompute根据作业需要可在秒级为单作业分配数千Core并行处理,算力强大
低使用成本:
l 存储与计算独立伸缩,独立计费,无需为存储扩容资源
l 真正的“按使用付费”,按量付费模式仅在运行作业时收费,不为空闲IDLE资源付费
l 配套的费用预警等费用控制手段
免运维:
l 无需运维团队对基础设计、软件平台运维,MaxCompute提供服务级别SLA保障
l 无需提前容量规划,根据实际的业务规模自动适配资源和花费
l 无需进行索引、分布键设置、vacuuming等调优工作No indexes, distribution keys, vacuuming
l 后台智能化优化,如小文件自动合并
Serverless意味着更敏捷的业务响应和快速试错、创新-从开通到第一个查询。
Serverless意味着简单、强大计算能力,无需容量规划、匹配业务快速变化的需求。从一个非常小的数据集也能同时支持超大规模的复杂计算
Serverless意味着更灵活的资源解决乃方案,兼顾成本与性能的需要。
MaxCompute算力资源产品解决方案:
企业算力需求及偏好存在差异。
l 包年包月
n 满足常规需求,稳定财务支出
n 支持作业优先级,保障关键任务稳定产出
n 支持存储与计算资源包购买
l 按需使用
n ·无服务器架构,超大规模的存储和计算扩展能力
n 自动匹配业务而求,完美适配业务的高速变化
n 不使用不付费
l 多计算资源打通
n 融合打通包年包月与按需使用的弹性资源,只斋联合开通,即可实现更优的成本与性能平衡的资源解决方案
l 抢占空闲资源
n 非预留计算资源,抢占并使用服务空闲计算资源,价格较包年包月标准计算资源下降74%
MaxCompute是天然的多租户系统:
统一元数据和数据存储,通过权限实现跨业务/组织的数据隔离与共享,是消除数据孤岛、提高数据共享效率的重要技术数段。
1. 完整的多租户系统,实现数据、计算资源、计算任务(沙箱)的安全隔离
2. 组织内部通过Project进行数据和计算的隔离(workload isolation),消除业务间的资源争抢
3. 提供统一的元数据,企业内各部门/业务的完整数据视图一览无余,提供完整的企业数据资产视图
4. 支持跨项目间的数据访问授权,高效、低成本地在企业内共享数据,实现每个个人对企业各项数据资源的受控使用
5. 业界最完整的安全管理体系,支持跨项目数据安全管理、细粒度的访问控制、数据加密、息私数据保护、操作使用行为审计能力
多租户体系下企业级可信赖的数据管理平台-MaxCompute拥有最全面的安全管理机制,提供业界领先的安全能力。
安全事件频发,云上大数据服务如何保障企业数据和服务安全?
构建全面、多层次的安全管理能力,持续保护云上数据及服务安全。
例子:
在创建新的数据开发空间的时候,可选择对这个项目进行数据的加密,选择默认的密钥或自定义密钥,同时也可以选择对应的加密算法。有了这样的能力,数据存放在云上,达到了数据存储安全的能力。
MaxCompute是面向分析的统一数据平台,一个平台满足数据时代的多种需求,简化企业数据平台架构,加速获取深入的业务洞察。现代化的数据平台(Modern data platform)要求企业能够对业务做更实时的响应、处理不断增加的不同类型数据、利用新技术挖
掘数据更深入的价值。
1. 更实时的数据洞察:
支持批量和流式数据接入,将业务洞察从T+1拉近到准实时/实时洞察。
2. 联合并查询几乎任何数据( structure | semi-structure | non-structure )( Internal data | External data ):
No One-Size-Fits-A11,让数据存放在最合适的位置,通过计算联动。
3. 面向分析:机器学习与大数据的融合平台
与PAI无缝集成,同时内建主流机器学习框架支持,无需移动数据获得深入洞察分析。
使用MaxCompute开发基于机器学习的智能应用:
l 离线或实时接入数据到MaxCompute
l 使用MaxCompute SQL处理大规模数据&准备模型需要的数据
l 使用用户偏好的机器学习工具开展特征工程&训练&评估&预测
n PAI Studio-提供百余种机器学习算法组件,包含数据预处理、特征工程、统计分析,机器学习、深度学习、时间序列、文本分析、网络分祈等,可直接访问处理MaxCompute项目数据
n Spark-ML/MLlib: MaxCormpute内建Spark服务
n Python三方库:通过Pyodps,可以集成Scikit-Learn机器学习库开展分析
n SQL ML: MaxCompute SQL提供SQL语法集成的机器学习能力
l 统一分析平台
l MaxCompute深度集成Spark
”一套数据支持多种引擎”,在全托管的统数据平台上使用主流&熟悉的计算引擎,满足更丰富计算场景的需要。
MaxCompute Spark是MaxCompute提供的Apache Spark计算框架,完全兼容Spark的API、应用及生态工具。MaxCompute项目用户,可在统一的数据存储、权限管控体系内,利用Spark进行应用开发。
l 以数据为中心︰无需从数据仓库中移动数据到Spark集群
l 统一解决方案︰统一的权限体系
l 挖掘数据价值︰复杂ETL、机器学习、外部数据源分析
l 开放兼容∶支持原生Spark应用,存量Spark应用无缝迁
无缝集成和原生使用体验:
现代化的数据仓库+数据湖解决方案,通过一致的数据管理体系整合和联动跨源的多种结构数据。
连接企业多种外部数据源,通过统一、一致的数据管理体系(MaxCompute统一元数据),多种来源的数据可在统一的计算环境中跨孤立存储系统进行无缝数据的访问和处理。
收益:
l 一个产品支持多种计算模式,数据无需移动即可满足多分析场景需求,同时满足数据安全、合规需求
l 利用外表方式、Spark应用,直接对数据湖开放格式数据进行处理分析
l 无需ETL,跨数据源的联邦计算
l BigData+Al,直接对数据仓库数据进行开展机器学习应用
l 全托管的Serverless架构,存储/计算分离,超大规模弹性伸缩,按量付费,无需资源开通、无需平台运维、无需性能调优、不需要容量规划
l AI集成的一体化数据平台
挑战:
1. 真实的人工智能场景依赖大数据平台提供数据供给,进行数据预处理。如何在企业统一的数据资产及安全体系之上,同时开展BI分析和AI分析充分挖掘数据价值,不因计算而移动数据,避免数据孤岛和资源浪费
2. 如何屏蔽异构的计算资源(CPU/GPU)的复杂性,对外提供简单易用的界面
应对:大数据与人工智能融合的分析平台(MaxCompute+PAI)
1. MaxCompute资源管理统一对异构资源(支持CPU/GPU计算资源)进行管理,屏蔽异构的计算资源(CPU/GPU)的复杂性
2. MaxComptue提供统一数据存储、统一权限体系下、统一计算引擎,支持对数据开展包括离线处理、交互式分析、机器学习/深度学习在内的分析
3. 机器学习平台PAI ( Platform of Artificial Intelligence ) ,为传统机器学习和深度学习提供了从数据处理模型训练、服务部署到预测的一站式服务,极大降低了AI创新的成本和门槛
l MaxCompute是高性能/低成本的技术底座
MaxCompute带来了财务支出的灵活性和业务敏捷性,真实TCO低至Hadoop自建1/3
减少前期投入,快速验证价值
高性能、低成本的大数据分析服务:
1. “性能快1倍,成本低1半”VS Hadoop*连续3年TPCx-BB全球最佳。
2. 更符合现代数据分析负载需求
l TPCx-BB:TPC组织官方发布的面向大数据分析的测试标准,在结构化数据分析基础上,增加了半结构化和非结构化数据的测试,同时在数据仓库负载基础上增加了机器学习用例的测试,更符合大数据实际的分析场景。
最小化运维管理投入,真实TCO低至1/3:
不止于离线数仓/ETL,MaxCompute面向BI/Ad-hoc场景高性能服务,弹性并发。
SSB 测试集和 TPC-DS测试集:
l MaxCompute是开放生态的数据平台
MaxCompute拥有开放生态的服务,支持与众多服务集成,融入企业已有的IT环境,最大化降低数据链路集成工作,提升开发效率。
l 完整的阿里云大数据产品解决方案
方案说明∶
适用于电商、游戏、社交等互联网行业数据化运营,如智能推荐、日志采集分析、用户画像、数据治理、业务大屏搜索等场景。
方案优势︰
阿里巴巴最佳实践的大数据平台,1)技术领先性;2)降本提效;3)高附加值业务收益;
涉及产品:
日志服务SLS、数据传输DTS、DataHub、实时计算Flink、交互式分析、云数仓MaxCompute、数据治理DataWorks,Quick BI报表、DataV大屏、ES搜索、机器学习PAI。
l 企业级可治理的数据管理平台
方案说明∶
适用于互联网、金融、*、传统企业等行业头部、拥有海量数据资产的客户
方案优势︰
阿里巴巴大数据治理最佳实践,提供数据发现机制,支持统一元数据采集与数据资产目录构建支持数据探查与数据分析、联邦查询以及资源优化服务,让企业更方便地探查数据价值,更有效的统一元数据管理,更安全的生产数据,更智能的优化大数据成本。
l 企业级可治理的数据管理平台-计算/存储资源智能优化
存储/计算资源优化、诊断与分析:
多领域优化建议:数据存储领域、数据计算领域、数据采集领域
围绕引擎采集第一手数据:生命周期/空表/长时间未访问、冲突任务/数据倾斜/暴力扫描、空表导入/持续一致导入/同源导入/网络优化
多视角优化视图:个人视角、管理员全局视角
l 基于MaxCompute的解决方案及案例介绍
l MaxCompute能够解决自建数据平台的痛点问题
自建数据平台面临的挑战:
1. 建设成本高:
l 初始投资高–购买软硬件、构建专业团队
l 周期较长&风险高-从建设到投入使用的周期较长,以月为单位,业务风险高
2. 扩展性与弹性(匹配业务需求的能力)不足:
l 滞后业务需求-依赖容量规划、采购周期等条件,平台能力扩展往往滞后于业务实际发展的需要
l 规模容量限制–容易受到机房容量限制,扩容困难
l 受限的弹性能力–固定规模的资源池,难以满足突发业务需要的临时弹性需求
3. 资源利用率低∶
l 集群资源利用率低-业务天然地存在不同类型的峰谷变化,导致集群按峰值扩容,显示资源使用率低
l 为存储扩容计算-由于存储与计算需求的不一致,往往需要为存储空间扩容集群,导致浪费
4. 运维维护成本高∶
l 保障服务SLA的成本高–需要投入专家团队进行集群版本升级、根据管理需要进行二次开发和功能增强,运维管理的人力投入较高
l 人员流失变化对系统影响大-自建数据平台的长期发展、演进,对企业的核心技术人才依赖高
MaxCompute云上服务:
1. 极大降低了使用门槛:
l 开箱即用,内置完整功能和生态配套
l 支持按作业付费(Pay as you use),支持以极低的费用进行业务概念验证后投入生产
2. 近乎无限扩展:
l 超大资源池,支持TB到EB规模数据仓库的扩展
l 无需容量规划,自适应处理不同业务规模,规模增长、性能不降级
l 计算和存储独立伸缩
3. 敏捷-加速应用交付:
l 全托管、免运维-最小化在平台运维万闻投入,团可来焦于数据应用开发和数据管理
l 面向业务的敏捷平台∶可低成本、快速完成数据应用/数据产品的原型验证。业务规模增加后,系统自适应扩展,应用无需改动、调优
4. 精确匹配需求的极致弹性:
l 按需伸缩∶根据每个作业的需求实时、精准分配资源,单作业最大可分配成上万Core计算资源,保障算力
l 应对高并发︰自动应对业务峰谷变化的资源需求
5. 内建的企业级服务:
l 服务级别的高可用设计,面向使用者承诺99.9% SLA
l 内建教据加密、脱敏、持续备份、审计日志功能
l 支持跨地域容灾
l 大数据上云解决方案
大数据搬站是云上生态体系的融合与升级。
某母婴行业客户云上大数据仓库:
客户简介:
XXX成立于2007年,中国最大、最活跃的母婴类社区平台。作为最早做互联网2C的社区平台之一,XXX很早就建立了自己的IDC集群,而且规模越来越大。
客户需求:
1. 集群水位高,性能差,亟待大数据综合治理
2. IDC大数据每年投入成本高,希望降本提效。
客户价值:
从大数据平台上云整体“降本增效”的方案快速切入,迁移到大数据MaxCompute、实时计算、Dataworks后,部分任务有10倍以上的性能提升,存储从自建Hadoop 3PB降到900T,利用Flink实时数据处理能力,将XXX现有的场景实时化(“基于用户ID维度和内容类型的实时行为”、“获取用户的实时群聊ID”及“获取文章的实时发布信息”),并且基于Flink进行实时推荐增加转化率。大数据平台整体成本节省30%以上。
l 智能实时数仓解决方案
方案说明:
适用于电商、游戏、社交等互联网行业大规模数据实时查询场景。
方案优势:
1. 阿里云实时数仓全套链路,与离线数仓无缝打通。
2. 满足一套存储,两种计算(实时计算和离线计算)的高性价比组合
产品组合:
DataHub+实时计算Flink+交互式分析
+MaxCompute+DataWorks+Quick BI / DataV
1. 数据采集–通过DataWorks(批量)、DataHub(实时)进行统一数据采集接入
2. 基于Dataworks完成数据全链路研发,包括数据集成、数据开发&ETL、转换及KPI计算等开发,以及数据作业的调度、监控、告警等。Dataworks提供数据开发链路的安全管控的能力。以及基于Dataworks的数据服务模块提供统一数据服务API能力
3. 实时数据按实际业务需求使用Fflink中进行实时ETL(可选),结果入库交互式分析产品构建实时数据仓库、应用集市,并提供海量数据的实时交互查询和分析。交互式分析提供实时离线联邦查询。历史离线数据存放于MaxCompute,实时分析数据存放于交互式分析
4. 基于阿里QuickBI进或第三方数据分析工具如Tableau行数据可视化,以及构建各业务板块数据服务门户应用
l 某视频行业客户:新一代云原生数仓,离线实时一体化
某视频行业客户是一款原创视频、全能剪辑的短视频社区APP,面向大众提供短视频创作工具,包括视频剪辑、教程玩法、视频拍摄,谷歌应用商城收入榜前五,全球累计用户突破8.9亿。
l MaxCompute产品规格介绍
按量计算——标准版
基础资源 计费
按量计算——开发者版
基础资源 计费说明
包年包月——标准计算资源
基础资源 计费说明
包年包月——套餐版
基础资源 计费说明
包年包月——套餐版
基础资源 计费说明
l 总结
1. MaxCompute :被广泛使用的可信赖的企业数据平台
2. MaxCompute :符合现代企业数字化需求的领先数据平台
3. MaxCompute :基于云的低成本、高效能的敏捷数据平台
4. MaxCompute :赋能数据驱动的组织变革,数据仓库/数据中台的理想技术底座