工具及下载
MaxCompute 客户端、MaxCompute Studio、MMA 等工具相关问题
1. 在 MaxCompute 客户端(odpscmd)的配置文件odps_config.ini 中设置了 use_instance_tunnel=false instance_tunnel_max_record=10为什么通过客户端执行 select 查询,还是能输出很多记录?
需要在配置文件中设置,use_instance_tunnel=true,再设置控制 instance_tunnel_max_record 的值,可以控制客户端返回 SQL 结果的最大记录数。
2. MaxCompute Tunnel 中的 history 命令保存多久?
和时间无关,默认保存 500 条。
3. 使用 Tunne 上传文件是否有大小限制?
每次上传至 Tunnel 的数据块大小默认为 100M。可以通过参数设置。 可以参考官方文档。
4. 使用 Tunnel 可以下载某个分区的数据吗?
可以,参考一下 Tunnel 命令说明文档。
5. 可以使用 Tableau 连接 MaxCompute 吗?
MaxCompute 支持您将 MaxCompute 项目数据接入 Tableau 进行可视化分析,您可以利用 Tablea u 简便的拖放式界面,自定义视图、布局、形状、颜色等,帮助您展现自己的数据视角。可参考官方文档。
6. 使用 MMA 工具做数据迁移时,有个 job 一直处于 pending 状态,无法删除 pending 的 job,如何删除呢?
目前只能取消迁移succeeded 和 failed 任务。会有一个重试,重试结果任务挂掉就可以删除。
7. 使用 MaxCompute 需要准备什么开发工具呢?
这里面的工具有三种:
Odpscmd:MaxCompute 客户端,喜欢用命令行的同学可以试试。
因为 odpscmd 是基于 JAVA 开发的,所以记得配置 JRE 1.7 以上版本,建议使用 JRE1.7/1.8。
MaxCompute Studio:是 MaxCompute 平台提供的安装在开发者客户端的大数据集成开发环境工具,是一套基于流行的集成开发平台 IntelliJ IDEA 的开发插件。
DataWorks:是阿里云重要的 PaaS 平台产品,可以提供数据集成、数据开发、数据管理、数据质量和数据服务等全方位的产品服务,拥有一站式开发管理的界面,DataWorks 是基于 MaxCompute 为核心的计算、存储引擎,可以提供海量数据的离线加工分析、数据挖掘等功能。
8. 创建项目空间后,在客户端执行 whoami 命令报错,显示 Project 不存在,或切换空间显示项目不存在。
创建空间时没有选择计算引擎服务,空间名称在配置文件中没有填写正确,MaxCompute 服务过期删除,Region 没有选择正确等原因均可导致此报错,需回顾过程,检查必填必选项,确认无误后重新执行。
温馨提示:按量付费和包年包月选项是需要购买服务才可以。开发者版本可免费试用。
9. MaxCompute 客户端(odpscmd)在 windows 命令行下查询中文乱码如何解决?
odpscmd 中出现中文乱码是因为中文字符集的编码方式不一致导致的,可以参考一篇实践文档来解决问题。
10. MaxCompute数据导出,提供了哪几种方法?
MaxCompute 提供了三种数据上传下载的通道:
- DataHub 实时数据通道:包含的工具有 OGG 插件、Flume 插件、LogStash 插件和 Fluentd 插件。
- Tunnel 批量数据通道:包含的工具有 MaxCompute 客户端、DataWorks、DTS、Sqoop、Kettle 插件以及 MMA 迁移工具。
- Streaming Tunnel 流式数据写入通道:支持实时计算 Flink、数据通道 DataHub、数据传输服务DTS、实时数据同步、Kafka 消息系统。
11. 如果没有显式配置 Tunnel Endpoint,会路由到哪个 TunnelEndpoin-t?
如果不配置 Tunnel Endpoint,Tunnel 会自动路由到 Service Endpoint 所在网络对应的 TunnelEndpoint,例如 Service Endpoint 为公网就路由到公网的 Tunnel Endpoint;Service Endpoint 为内网就路由到内网的 Tunnel Endpoint,若您继续手动配置,则以手动配置为准,不进行自动路由。具体可以参考官方文档。
12. 如何正确安装 MaxCompute 客户端?
1、 根据自身系统安装匹配 JDK(建议 1.7/1.8)并配置环境;
2、 官网文档下载最新版客户端文件并解压;
3、 根据开通好的工作空间配置 config 文件;
4、 根据自身系统选择执行文件(bin 文件内);
5、 执行测试建表语句:create table tbll(id bigint)。
安装及配置客户端过程中,可能会出现错误,请参考实践文章解决。
13. 配置 MaxCompute 客户端时报错 connect timed out 怎么解决?
一般是 endpoint 没有配置正确,如何正确配置 MaxCompute 客户端参考文章。
14. MaxCompute中的数据通道 Datahub 和 Tunnel 应用场景的区别是什么?
Datahub 是阿里云上的实时消息队列服务,与 MaxCompute 紧密集成。用户可以将实时数据写入Datahub 的topic,并通过 Datahub 的投递策略,定期将数据投递到 MaxComptue 表,满足实时数据准实时写入 MaxCompute 的需要。 Tunnel 用于批量上传数据到离线表里,适用于离线计算的场景。可参考文档。
15. 如何查看 MaxCompute JDBC Driver 的日志?
MaxCompute JDBC Driver 的日志记录了对 JDBC 接口调用的详细信息,包括调用的类名、方法名、行数、参数以及返回值等。通过这些信息,用户可以轻松地进行 Debug。 MaxCompute JDBCDriver 的日志默认放在 Driver Jar 包所在的同级目录,文件名为 jdbc.log。 如果将用户代码与Driver 打包为一个超级 Jar,日志将会在超级 Jar 所在的同级目录。
16. MaxCompute Studio 在 IntelliJ 的基础上提供了什么功能?
SQL 编辑器(SQL Editor):提供 SQL 语法高亮、代码补全、实时错误提示、本地编译、作业提交等功能。
编译器视图(Compiler View):显示本地编译的提示信息和错误信息,在编辑器中定位代码。
项目空间浏览器(Project Explorer):连接 MaxCompute 项目空间,浏览项目空间表结构、自定义函数、资源文件。 表详情视图(Table Details View):提供表、视图等资源的详情显示和示例数据(Sample Data)。
作业浏览器(Job Explorer):浏览、搜索 MaxCompute 的历史作业信息。
作业详情视图(Job Details View):显示作业的运行详细信息,包括执行计划和每个执行任务的详细信息,Logview 工具能够显示的全部信息。
作业输出视图(Job Output View):显示正在运行的作业的输出信息。
作业结果视图(Job Result View):显示 SELECT 作业的输出结果。MaxCompute 控制台(MaxCompute Console):集成了 MaxCompute 客户端,可以输入和执行 MaxCompute 客户端命令。
17. 影响 MaxCompute Tunenl 下载速度的原因,主要是什么?
Tunnel 上传下载受网络因素影响较大,正常网络情况下速度范围在 1 MB/s~20 MB/s 区间内。
Tunnel 下载速度不会限,但能不能达到机器网络带宽上限不一定,只能说使用 Tunnel 下载数据的时候这边不会额外的限制下载速度。所以,影响下载速度的主要原因是网络带宽。
18. 日志记录的各项信息代表什么如何查看?
日志记录其实就是MaxCompute 产品里的 Logview,Logview是 MaxCompute Job 提交后查看和Debug任务的工具。可以通过 Logview 可以看到一个 Job 的运行状态、运行结果和具体细节以及每个步骤的进度。 具体功能组件含义请参考官方文档。
>>快来点击免费下载《阿里云MaxCompute百问百答》了解更多详情!<<