Presto 如何高效查询 OSS 数据 | 学习笔记

开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲Presto 如何高效查询 OSS 数据】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/833/detail/13969


Presto 如何高效查询 OSS 数据

 

内容介绍

一、Presto介绍:SQL-on-Anything

二、JindoSDK 安装

三、使用

四、相关资料


一、   Presto 介绍:SQL-on-Anything

1.    为性能和规模而生;

2.    存储计算分离,没有存储;

3.    最初针对 HDFS 进行设计;

4.    原地查询,无需迁移数据。

Presto 如何高效查询 OSS 数据 | 学习笔记

 

二、 JindoSDK 安装

1.    下载最新的 jar 包 j indofs-sdk-x.x.x.jar,然后在所有 Presto 节点安装JindoFS SDK。

cp jindofs-sdk-$(version):jar $PRESTO_HOME/plugin/hive-hadoop2/

2.    配置 JindoFS OSS 实现类

将 JindoFS OSS 实现类配置到所有 Presto 节点上的 Hadoop 的 core-site.xml 中。

代码:

fs.AbstractFileSystem.oss.impl

com.aliyun.emr.fs.oss.0SS

fs.oss.impl

com.aliyun.emr.fs.oss.Jindo0ssFileSystem

3.    配置 OSS Access Key

请参考

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_credential_provider.md

4.    重启 Presto 所有服务,使配置生效

5.    现在 hive catalog 即可访问 OSS

 

三、   使用

查询演示

1.    安装 JindoSDK;

2.    配置 Presto;

3.    读取鸢尾花数据集并写入 OSS;

4.    从 OSS 查询鸢尾花数据集

 

四、   相关资料

1.    下载 JindoFS SDK:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs-sdk-download.md

2.    Presto 使用 JindoSDK:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindosdkon presto.md

上一篇:11.C++(标准模板库,详细)


下一篇:mycat之分表分库