开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲:Presto 如何高效查询 OSS 数据】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/833/detail/13969
Presto 如何高效查询 OSS 数据
内容介绍
一、Presto介绍:SQL-on-Anything
二、JindoSDK 安装
三、使用
四、相关资料
一、 Presto 介绍:SQL-on-Anything
1. 为性能和规模而生;
2. 存储计算分离,没有存储;
3. 最初针对 HDFS 进行设计;
4. 原地查询,无需迁移数据。
二、 JindoSDK 安装
1. 下载最新的 jar 包 j indofs-sdk-x.x.x.jar,然后在所有 Presto 节点安装JindoFS SDK。
cp jindofs-sdk-$(version)
:jar $PRESTO_HOME/plugin/hive-hadoop2/
2. 配置 JindoFS OSS 实现类
将 JindoFS OSS 实现类配置到所有 Presto 节点上的 Hadoop 的 core-site.xml 中。
代码:
fs.AbstractFileSystem.oss.impl
com.aliyun.emr.fs.oss.0SS
fs.oss.impl
com.aliyun.emr.fs.oss.Jindo0ssFileSystem
3. 配置 OSS Access Key
请参考
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_credential_provider.md
4. 重启 Presto 所有服务,使配置生效
5. 现在 hive catalog 即可访问 OSS
三、 使用
l 查询演示
1. 安装 JindoSDK;
2. 配置 Presto;
3. 读取鸢尾花数据集并写入 OSS;
4. 从 OSS 查询鸢尾花数据集
四、 相关资料
1. 下载 JindoFS SDK:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs-sdk-download.md
2. Presto 使用 JindoSDK:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindosdkon presto.md