产品简介
MaxCompute 相关术语、数据类型、项目空间等相关问题
1. 什么是 MaxCompute 呢?
MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析,将数据高效转换为业务洞察。
2. 使用 Maxcompute 需要什么专业技能?
MaxCompute 支持多种计算模型数据通道,满足多场景需求。
所以您只需要会使用 SQL、Python、Java 等开发语言就可以使用 MaxCompute 进行数据分析。
3. 如何理解开源与云原生的大数据技术与产品?
2020 大数据技术公开课第一季《从开源到云原生,你不得不知的大数据实战》,通过实践,帮助开发者们更好的理解和掌握大数据技术。大家可以通过文字和视频观看学习。
4. MaxCompute作为大数据平台,接入整个业务体系数据有没有好的监控手段?
当前 MaxCompute 仅支持在 DataWorks 数据质量中配置数据监控规则。外部数据源的字段变化,当前是没有办法监控到。
5. MaxCompute相关术语有哪些?
在开始使用 MaxCompute 产品前,您可以提前查阅 MaxCompute 所涉及的术语及其含义,为了解产品及快速上手提供帮助。您可以看下官方文档,将为您介绍 MaxCompute 涉及的术语及其概念。
6. MaxCompute有什么功能?
全托管的 Serverless 在线服务 |
对外以 API 方式访问的在线服务,开箱即用。 预铺设大规模集群资源,近乎无限资源,您可以按需使用、按量计费。 无需平台运维,最小化运维投入。 |
弹性能力与扩展性 |
存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛。 支持实时根据业务峰谷变化分配资源。 |
统一丰富的计算和存储能力 |
MaxCompute 支持多种计算模型和丰富的 UDF。 采用列压缩存储格式,通常情况下具备 5 倍压缩能力,可以大幅节省存储成本。 |
与 DataWorks 深度 集成 |
一站式数据开发与治理平台 DataWorks,可实现全域数据汇聚、融合加工和治理。DataWorks 支持对 MaxCompute 项目进行管理以及 Web 端查询编辑。 |
集成 AI 能力 |
与机器学习平台 PAI 无缝集成,提供强大的机器学习处理能力。 您可以使用熟悉的 Spark-ML 开展智能分析。 使用 Python 机器学习三方库。 |
深度集成 Spark 引擎 |
内建 Apache Spark 引擎,提供完整的 Spark 功能。 与 MaxCompute 计算资源、数据和权限体系深度集成。 |
湖仓一体 |
集成对数据湖(OSS 或 Hadoop HDFS)的访问分析,支持通过外部表映射、Spark 直接访问方式开展数据湖分析。 在一套数据仓库服务和用户接口下,实现数据湖与数据仓库的关联分析。 详细信息,请参见 MaxCompute 湖仓一体。 |
支持流式采集和近实时分析 |
支持流式数据实时写入并在数据仓库中开展分析。 与云上主要流式服务深度集成,轻松接入各种来源的流式数据。 支持高性能秒级弹性并发查询,满足近实时分析场景需求。 |
提供持续的 SaaS 化云上数据保护 |
为云上企业提供基础设施、数据中心、网络、供电、平台安全能力、用户权限管理、隐私保护等三级超 20 项安全功能,兼具开源大数据与托管数据库的安全能力。详情请参见安全指南。 |
7. MaxCompute有什么优势?
MaxCompute 的主要优势如下:
- 简单易用
- 面向数据仓库实现高性能存储、计算。
- 预集成多种服务,标准 SQL 开发简单。
- 内建完善的管理和安全能力。
- 免运维,按量付费,不使用不产生费用。
- 匹配业务发展的弹性扩展能力存储和计算独立扩展,动态扩缩容,按需弹性扩展,无需提前规划容量,满足突发业务增长。
- 支持多种分析场景支持开放数据生态,以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景。
- 开放的平台
- 支持开放接口和生态,为数据、应用迁移、二次开发提供灵活性。
- 支持与 Airflow、Tableau 等开源和商业产品灵活组合,构建丰富的数据应用。
8. MaxCompute 数据类型版本如何理解?
目前 Maxompute 一共支持 3 个数据类型版本:
1、MaxCompute 2.0 数据类型
2、MaxCompute 1.0 数据类型
3、MaxCompute Hive 兼容模式(即部分数据类型和 SQL 行为兼容 Hive)
MaxCompute 2.0推出了兼容开源主流产品的2.0数据类型和Hive兼容数据类型两个数据类型版本。
加上原有的 1.0 数据类型版本,目前 Maxompute 一共支持 3 个数据类型版本。
MaxCompute 数据类型版本 - MaxCompute 设置数据类型版本属性的参数共有 3 个:
odps.sql.type.system.odps2:MaxCompute 2.0 数据类型版本的开关,属性值为 True 或 False。odps.sql.decimal.odps2:MaxCompute 2.0 的 Decimal 数据类型的开关,属性值为 True 或 False。odps.sql.hive.compatible:MaxCompute Hive 兼容模式(即部分数据类型和 SQL 行为兼容 Hive)数据类型版本的开关,属性值为 True 或 False。
9. MaxCompute有数据库一致性和锁的处理机制吗?
MaxCompute 支持 ACID 语义原子性(Atomicity):
一个操作或是全部完成,或是全部不完成,不会结束在中间某个环节。
一致性(Consistency):从操作开始至结束的期间,数据对象的完整性没有被破坏。
隔离性(Isolation):操作独立于其它并发操作完成。
持久性(Durability):操作处理结束后,对数据的修改将永久有效,即使出现系统故障,该修改也不会丢失。
10. 什么是 MaxCompute 表的生命周期(Lifecycle)?
MaxCompute表的生命周期(Lifecycle),指表(分区)数据从最后一次更新的时间算起,在经过指定的时间后没有变动,则此表(分区)将被 MaxCompute 自动回收。这个指定的时间就是生命周期。
生命周期单位:Days(天),只接受正整数。 对于非分区表,如果表数据在生命周期 Days 天内没有被修改,经过 Days 天后此表将会被 MaxCompute 自动回收(类似 DROP TABLE 操作)。
生命周期从最后一次表数据被修改的时间(LastDataModifiedTime)起开始计算。 对于分区表,每个分区可以分别被回收。在生命周期 Days 天内数据未被修改的分区,经过指定的天数后此分区将会被回收,否则会被保留。每个分区的生命周期是从最后一次分区数据被修改的时间 LastDataModifiedTime 起开始计算。不同于非分区表,分区表的最后一个分区被回收后,该表不会被删除。 生命周期只能设定到表级别,不能在分区级设置生命周期。创建表时即可指定生命周期。 如果您没有为表指定生命周期,则表(分区)不会根据生命周期规则被 MaxCompute 自动回收。
11. MaxCompute的项目空间发挥什么作用?
项目空间(Project)是 MaxCompute 的基本组织单元,它类似于传统数据库的 Database 或Schema 的概念,是进行多用户隔离和访问控制的主要边界。项目空间中包含多个对象,
例如表
(Table)、资源(Resource)、函数(Function)和实例(Instance)等。
一个用户可以同时拥有多个项目空间的权限。通过安全授权,可以在一个项目空间中访问另一个项目空间中的对象,例如表(Table)、资源(Resource)、函数(Function)和实例(Instance)。
12. 怎获取MaxCompute 中 AccesskeyID 和 Access key Secret?
使用 MaxCompute 服务前,我们需要准备一个阿里云账号。 查看文档解决大家如何获取 AK 密钥。
13. DataWorks简单模式和标准模式的区别?
数据上云后,在使用 MaxCompute 计算引擎时,需要一个稳定、可靠的调度系统,将自身数据生产任务(代码)按照所需依赖关系、运行时间来调度运行,那么 DataWorks 就派上了用场。DataWor ks 提供简单模式和标准模式两种工作空间模式。
简单模式指一个 DataWorks 工作空间对应一个MaxCompute项目(project),无法设置开发环境和生产环境,只能进行简单的数据开发。标准模式指一个 DataWorks 工作空间对应两个 MaxCompute 项目(project),可以设置开发和生产环境,提升代码开发规范。两个模式还存在项目、用户和权限的不同。大家可以通过学习官方文档或者是实操来加强认知。
14. 创建 MaxCompute 项目空间,是只能在 DataWorks 控制台中创建吗?
是的。请在 DataWorks 控制台上进行操作。创建项目空间前,您需要先服务,并确保开通的Region 与 MaxCompute开通的 Region 保持一致。
15. 现有账号的 AK 禁用,创建一个新的 AK,会对之前 AK 创建的周期性任务有影响吗?
有的,如果 AccessKey 被禁用或删除,将直接影响您的 DataWorks 中各类任务的正常运行。 AK 信息谨慎操作。其余 AK 操作请参考官方文档。
16. MaxCompute的表格类型有几种,分别为什么?
MaxCompute 的表格有两种类型:内部表和外部表(MaxCompute2.0 版本开始支持外部表)。对于内部表,所有的数据都被存储在MaxCompute 中,表中列的数据类型可以是 MaxCompute 支持的任意一种数据类型。 对于外部表,MaxCompute 并不真正持有数据,表格的数据可以存放在OSS 或 OTS 中 。MaxCompute 仅会记录表格的 Meta 信息,您可以通过 MaxCompute 的外部表机制处理 OSS 或 OTS 上的非结构化数据,例如视频、音频、基因、气象、地理信息等。
17. 如果想使用MaxCompute的自定义函数(UDF)或 MapReduce 功能需要依赖什么资源来完成?
SQL UDF:您编写UDF 后,需要将编译好的 Jar 包以资源的形式上传到MaxCompute。运行此 UDF 时,MaxCompute会自动下载这个 Jar 包,获取您的代码来运行 UDF,无需您干预。上传 Jar 包的过程就是在 MaxCompute 上创建资源的过程,这个 Jar 包是 MaxCompute 资源的一种。
MapReduce:您编写 MapReduce 程序后,将编译好的 Jar 包作为一种资源上传到 MaxCompute。
运行 MapReduce 作业时,MapReduce 框架会自动下载这个 Jar 资源,获取您的代码。您同样可以将文本文件以及 MaxCompute 中的表作为不同类型的资源上传到 MaxCompute,您可以在 UDF 及 MapReduce 的运行过程中读取、使用这些资源。
18. MaxCompute建表默认有压缩功能吗?可以指定压缩格式和存储格式吗?
目前 MaxCompute 默认自动压缩 3-5 倍,默认存储格式 AliORC,不支持自定义。
19. MaxCompute常见错误信息如何理解,怎么定位问题?
MaxCompute的常见报错信息编号有规范定义,异常编号:通用描述 - 上下文相关说明。其中 SQL、MapReduce、Tunnel 的错误信息是不一样的。官方文档中列举了一些错误信息, 大家可以查询一一对应报错信息。
>>快来点击免费下载《阿里云MaxCompute百问百答》了解更多详情!<<