【MaxCompute 常见问题】 产品简介

产品简介


MaxCompute 相关术语、数据类型、项目空间等相关问题


1.  什么是 MaxCompute 呢?

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析,将数据高效转换为业务洞察。


2.  使用 Maxcompute 需要什么专业技能?

MaxCompute 支持多种计算模型数据通道,满足多场景需求。

所以您只需要会使用 SQL、Python、Java 等开发语言就可以使用 MaxCompute 进行数据分析。


3.  如何理解开源与云原生的大数据技术与产品?

2020 大数据技术公开课第一季《从开源到云原生,你不得不知的大数据实战》,通过实践,帮助开发者们更好的理解和掌握大数据技术。大家可以通过文字和视频观看学习。


4.  MaxCompute作为大数据平台,接入整个业务体系数据有没有好的监控手段?

当前 MaxCompute 仅支持在 DataWorks 数据质量中配置数据监控规则。外部数据源的字段变化,当前是没有办法监控到。


5.  MaxCompute相关术语有哪些?

在开始使用 MaxCompute 产品前,您可以提前查阅 MaxCompute 所涉及的术语及其含义,为了解产品及快速上手提供帮助。您可以看下官方文档,将为您介绍 MaxCompute 涉及的术语及其概念。


6.  MaxCompute有什么功能?

全托管的 Serverless

在线服务

对外以 API 方式访问的在线服务,开箱即用。

预铺设大规模集群资源,近乎无限资源,您可以按需使用、按量计费。

无需平台运维,最小化运维投入。

弹性能力与扩展性

存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛。

支持实时根据业务峰谷变化分配资源。

统一丰富的计算和存储能力

MaxCompute 支持多种计算模型和丰富的 UDF。

采用列压缩存储格式,通常情况下具备 5 倍压缩能力,可以大幅节省存储成本。

与 DataWorks 深度

集成

一站式数据开发与治理平台 DataWorks,可实现全域数据汇聚、融合加工和治理。DataWorks 支持对 MaxCompute 项目进行管理以及 Web 端查询编辑。

集成 AI 能力

与机器学习平台 PAI 无缝集成,提供强大的机器学习处理能力。

您可以使用熟悉的 Spark-ML 开展智能分析。

使用 Python 机器学习三方库。

深度集成 Spark 引擎

内建 Apache Spark 引擎,提供完整的 Spark 功能。

与 MaxCompute 计算资源、数据和权限体系深度集成。

湖仓一体

集成对数据湖(OSS 或 Hadoop HDFS)的访问分析,支持通过外部表映射、Spark 直接访问方式开展数据湖分析。

在一套数据仓库服务和用户接口下,实现数据湖与数据仓库的关联分析。

详细信息,请参见 MaxCompute 湖仓一体

支持流式采集和近实时分析

支持流式数据实时写入并在数据仓库中开展分析。

与云上主要流式服务深度集成,轻松接入各种来源的流式数据。

支持高性能秒级弹性并发查询,满足近实时分析场景需求。

提供持续的 SaaS 化云上数据保护

为云上企业提供基础设施、数据中心、网络、供电、平台安全能力、用户权限管理、隐私保护等三级超 20 项安全功能,兼具开源大数据与托管数据库的安全能力。详情请参见安全指南


7.  MaxCompute有什么优势?

MaxCompute 的主要优势如下:

  • 简单易用
    • 面向数据仓库实现高性能存储、计算。
    • 预集成多种服务,标准 SQL 开发简单。
    • 内建完善的管理和安全能力。
    • 免运维,按量付费,不使用不产生费用。
  • 匹配业务发展的弹性扩展能力存储和计算独立扩展,动态扩缩容,按需弹性扩展,无需提前规划容量,满足突发业务增长。
  • 支持多种分析场景支持开放数据生态,以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景。
  • 开放的平台
    • 支持开放接口和生态,为数据、应用迁移、二次开发提供灵活性。
    • 支持与 Airflow、Tableau 等开源和商业产品灵活组合,构建丰富的数据应用。


8. MaxCompute 数据类型版本如何理解?

目前 Maxompute 一共支持 3 个数据类型版本:

1、MaxCompute 2.0 数据类型

2、MaxCompute 1.0 数据类型

3、MaxCompute Hive 兼容模式(即部分数据类型和 SQL 行为兼容 Hive)

MaxCompute 2.0推出了兼容开源主流产品的2.0数据类型和Hive兼容数据类型两个数据类型版本。

加上原有的 1.0 数据类型版本,目前 Maxompute 一共支持 3 个数据类型版本。

MaxCompute 数据类型版本 - MaxCompute 设置数据类型版本属性的参数共有 3 个:

odps.sql.type.system.odps2:MaxCompute 2.0 数据类型版本的开关,属性值为 True 或 False。odps.sql.decimal.odps2:MaxCompute 2.0 的 Decimal 数据类型的开关,属性值为 True 或 False。odps.sql.hive.compatible:MaxCompute Hive 兼容模式(即部分数据类型和 SQL 行为兼容 Hive)数据类型版本的开关,属性值为 True 或 False。


9. MaxCompute有数据库一致性和锁的处理机制吗?

MaxCompute 支持 ACID 语义原子性(Atomicity):

一个操作或是全部完成,或是全部不完成,不会结束在中间某个环节。

一致性(Consistency):从操作开始至结束的期间,数据对象的完整性没有被破坏。

隔离性(Isolation):操作独立于其它并发操作完成。

持久性(Durability):操作处理结束后,对数据的修改将永久有效,即使出现系统故障,该修改也不会丢失。


10. 什么是 MaxCompute 表的生命周期(Lifecycle)?

MaxCompute表的生命周期(Lifecycle),指表(分区)数据从最后一次更新的时间算起,在经过指定的时间后没有变动,则此表(分区)将被 MaxCompute 自动回收。这个指定的时间就是生命周期。

生命周期单位:Days(天),只接受正整数。 对于非分区表,如果表数据在生命周期 Days 天内没有被修改,经过 Days 天后此表将会被 MaxCompute 自动回收(类似 DROP TABLE 操作)。

生命周期从最后一次表数据被修改的时间(LastDataModifiedTime)起开始计算。 对于分区表,每个分区可以分别被回收。在生命周期 Days 天内数据未被修改的分区,经过指定的天数后此分区将会被回收,否则会被保留。每个分区的生命周期是从最后一次分区数据被修改的时间 LastDataModifiedTime 起开始计算。不同于非分区表,分区表的最后一个分区被回收后,该表不会被删除。 生命周期只能设定到表级别,不能在分区级设置生命周期。创建表时即可指定生命周期。 如果您没有为表指定生命周期,则表(分区)不会根据生命周期规则被 MaxCompute 自动回收。


11.   MaxCompute的项目空间发挥什么作用?

项目空间(Project)是 MaxCompute 的基本组织单元,它类似于传统数据库的 Database 或Schema 的概念,是进行多用户隔离和访问控制的主要边界。项目空间中包含多个对象,

例如表

(Table)、资源(Resource)、函数(Function)和实例(Instance)等。

一个用户可以同时拥有多个项目空间的权限。通过安全授权,可以在一个项目空间中访问另一个项目空间中的对象,例如表(Table)、资源(Resource)、函数(Function)和实例(Instance)。


12. 怎获取MaxCompute 中 AccesskeyID 和 Access key Secret?

使用 MaxCompute 服务前,我们需要准备一个阿里云账号。 查看文档解决大家如何获取 AK 密钥。


13. DataWorks简单模式和标准模式的区别?

数据上云后,在使用 MaxCompute 计算引擎时,需要一个稳定、可靠的调度系统,将自身数据生产任务(代码)按照所需依赖关系、运行时间来调度运行,那么 DataWorks 就派上了用场。DataWor ks 提供简单模式和标准模式两种工作空间模式。

简单模式指一个 DataWorks 工作空间对应一个MaxCompute项目(project),无法设置开发环境和生产环境,只能进行简单的数据开发。标准模式指一个 DataWorks 工作空间对应两个 MaxCompute 项目(project),可以设置开发和生产环境,提升代码开发规范。两个模式还存在项目、用户和权限的不同。大家可以通过学习官方文档或者是实操来加强认知。


14. 创建 MaxCompute 项目空间,是只能在 DataWorks 控制台中创建吗?

是的。请在 DataWorks 控制台上进行操作。创建项目空间前,您需要先服务,并确保开通的Region 与 MaxCompute开通的 Region 保持一致。


15. 现有账号的 AK 禁用,创建一个新的 AK,会对之前 AK 创建的周期性任务有影响吗?

有的,如果 AccessKey 被禁用或删除,将直接影响您的 DataWorks 中各类任务的正常运行。 AK 信息谨慎操作。其余 AK 操作请参考官方文档


16. MaxCompute的表格类型有几种,分别为什么?

MaxCompute 的表格有两种类型:内部表和外部表(MaxCompute2.0 版本开始支持外部表)。对于内部表,所有的数据都被存储在MaxCompute 中,表中列的数据类型可以是 MaxCompute 支持的任意一种数据类型。 对于外部表,MaxCompute 并不真正持有数据,表格的数据可以存放在OSS 或 OTS 中 。MaxCompute 仅会记录表格的 Meta 信息,您可以通过 MaxCompute 的外部表机制处理 OSS 或 OTS 上的非结构化数据,例如视频、音频、基因、气象、地理信息等。


17. 如果想使用MaxCompute的自定义函数(UDF)或 MapReduce 功能需要依赖什么资源来完成?

SQL UDF:您编写UDF 后,需要将编译好的 Jar 包以资源的形式上传到MaxCompute。运行此 UDF 时,MaxCompute会自动下载这个 Jar 包,获取您的代码来运行 UDF,无需您干预。上传 Jar 包的过程就是在 MaxCompute 上创建资源的过程,这个 Jar 包是 MaxCompute 资源的一种。

MapReduce:您编写 MapReduce 程序后,将编译好的 Jar 包作为一种资源上传到 MaxCompute。

运行 MapReduce 作业时,MapReduce 框架会自动下载这个 Jar 资源,获取您的代码。您同样可以将文本文件以及 MaxCompute 中的表作为不同类型的资源上传到 MaxCompute,您可以在 UDF 及 MapReduce 的运行过程中读取、使用这些资源。


18.   MaxCompute建表默认有压缩功能吗?可以指定压缩格式和存储格式吗?

目前 MaxCompute 默认自动压缩 3-5 倍,默认存储格式 AliORC,不支持自定义。


19.   MaxCompute常见错误信息如何理解,怎么定位问题?

MaxCompute的常见报错信息编号有规范定义,异常编号:通用描述 - 上下文相关说明。其中 SQL、MapReduce、Tunnel 的错误信息是不一样的。官方文档中列举了一些错误信息, 大家可以查询一一对应报错信息


>>快来点击免费下载《阿里云MaxCompute百问百答》了解更多详情!<<


上一篇:Hologres产品介绍与技术揭秘


下一篇:从ASP.Net Core Web Api模板中移除MVC Razor依赖项