数据湖实操讲解【JindoFS 缓存加速】第十三讲:Presto 访问 OSS 透明缓存加速

本期导读 :【JindoFS 缓存加速】第十三讲


主题:Presto 访问 OSS 透明缓存加速


讲师:辰山,阿里巴巴计算平台事业部 EMR 技术专家


内容框架:

  • JIndoFS 缓存模式简介
  • Presto 访问 OSS 的缓存加速
  • 实操演示


直播回放链接:(13讲)

https://developer.aliyun.com/live/246923



一、JindoFS 缓存模式简介

JindoFS缓存模式架构图:

数据湖实操讲解【JindoFS 缓存加速】第十三讲:Presto 访问 OSS 透明缓存加速

架构介绍:

  • Jindo Namespace Service:JindoFS 元数据管理以及 Storage 服务的管理
  • Jindo Storage Service:用户数据的管理包含本地数据的管理和OSS上数据的管理
  • Jindo SDK 客户端:所有上层计算引擎通过JindoFS SDK提供的客户端访问JindoFS文件系统,从而实现对后端存储实现缓存加速

二、Presto 访问 OSS 的缓存加速

部署缓存服务

  • 下载最新 Releaseb2smartdata-x.x.x.tar.gz,解压并部署到集群所有节点上
  • 修改配置文件conf/bigboot.cfg

      数据湖实操讲解【JindoFS 缓存加速】第十三讲:Presto 访问 OSS 透明缓存加速

  • 修改 sbin/nodes,配置所有storage service的节点列表
  • 启动所有服务 ./sbin/start-service.sh


参考网址:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md

部署Jindo SDK

  • 安装 jar包:下载最新的jar包 jindofs-sdk-x.x.x.jar,在所有 Presto 节点安装。

     cpjindofs-sdk-${version}.jar $PRESTO_HOME/plugin/hive-hadoop2/

  • 配置 JindoFS 实现类:将JindoFS 实现类配置到Hadoop的core-site.xml中

数据湖实操讲解【JindoFS 缓存加速】第十三讲:Presto 访问 OSS 透明缓存加速

     

配置OSS Access Key

  • 将OSS的Access Key、Access Key Secret、Endpoint等预先配置在Hadoop的core-site.xml中。

    数据湖实操讲解【JindoFS 缓存加速】第十三讲:Presto 访问 OSS 透明缓存加速 

配置客户端连接缓存服务

客户端通过环境变量 B2SDK_CONF_DIR 定位并加载配置文件 bigboot.cfg

  • 设置环境变量指定配置目录

        export B2SDK_CONF_DIR= /path/to/sdk/conf

  • 在配置目录下添加bigboot.cfg配置文件
     •
    client.storage.rpc.port = 6101

    •client.namespace.rpc.address = <NAMESPACE_ADDRESS>:8101

       •jfs.cache.data-cache.enable = true

数据湖实操讲解【JindoFS 缓存加速】第十三讲:Presto 访问 OSS 透明缓存加速

完成以上配置之后,重启 Presto所有服务

hive catalog 即可访问OSS

Presto SQL读取 OSS 上的数据后,会自动缓存到JindoFS缓存系统中,后续访问相同的数据就能够命中缓存


三、实操演示


点击回放链接,直接观看第13讲视频回放,获取讲师实例讲解:

https://developer.aliyun.com/live/246923

上一篇:【月刊】E-MapReduce 2021-04/05 产品月刊


下一篇:数据湖实操讲解【OSS 访问加速】第八讲:Flume 高效写入 OSS