开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲:Presto 访问 OSS 透明缓存加速 】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/833/detail/13973
Presto 访问 OSS 透明缓存加速
内容介绍
一、JindoFS 缓存模式简介
二、Presto 访问 OSS 的缓存加速
三、实操演示
一、JindoFS 缓存模式简介
两大服务主件:
Jindo Namespace Service(负责缓存数据快的信息管理)
Jindo Storage Service(部署在节点上,利用本地存储资源实现缓存加速)
一个客户端:Jindo SDK
二、Presto 访问OSS的缓存加速
1.部署缓存服务
(1)下载最新 Release 包 b2smartdata-x.x.x.tar.gz ,解压并部署到集群所有节点上
(2)修改配置文件 conf/bigboot.cfg
(3)修改 sbin/nodes,配置所有 storage service 的节点列表
(4)启动所有服务/sbin/start-service.sh
详细文档可参考:https://gitub.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md
2.部署 Jindo SDK
(1)安装 jar 包:下载最新的 jar包 jindofs-sdk-x.x.x.jar,在所有 Presto 节点安装。cpjindofs- sdk-$ {version} .jar$PRESTO_HOME/plugin/hive-hadoop2/
(2)配置 JindoFS 实现类:将JindoFS 实现类配置到 Hadoop 的core-site.xml中。
3.配置 OSS Access Key
将 OSS 的 Access Key、Access Key Secret、Endpoint 等预先配置在Hadoop的core-site.xml 中。
4.配置客户端连接缓存服务
客户端通过环境变量 B2SDK_CONF_DIR 定位并加载配置文件 bigboot.cfg
·设置环境变量指定配置目录
export B2SDK_CONF_DIR=/path/to/sdk/conf
·在配置目录下添加 bigboot.cfg 配文件
·client.storage.rpc.port=6101
·client.namespace.rpc.address= :8101
·jfs.cache.data-cache.enable=true5.Presto 访问 OSS 透明缓存加速
·完成以上配置之后,重启 Presto 所有服务
·hive catalog 即可访问 OSS
·Presto SQL 读取 OSS 上的数据后,会自动缓存到 JindoFS 缓存系统中,后续访问相同的数据就能够命中缓存
三、实操演示
·JindoFS 缓存服务配置:
·启动后进程会监听在8104端口上,通过浏览器查看8104端口,可以查看整个JindoFS 的状态信息,配置的节点和磁盘水位。
完成以上检查后,即可确认一个缓存服务的可用状态
·以下为在 Presto 中如何使用 SDK 来缓存加速数据