数据湖实操讲解【JindoFS 缓存加速】第十四讲:指定表和分区来预先缓存,查询分析更高效

本期导读 :【JindoFS 缓存加速】第十四讲


主题:指定表和分区来预先缓存,查询分析更高效


讲师:抚月,阿里巴巴计算平台事业部 开源大数据平台 技术专家


内容框架:

  • 背景介绍
  • 功能介绍
  • 使用方法
  • 实操演示


直播回放链接:(14讲)

https://developer.aliyun.com/live/246996

一、背景介绍

传统集群架构:

•存储计算一体

•存储量与计算量无法始终匹配

•存储无法水平扩展

数据湖实操讲解【JindoFS 缓存加速】第十四讲:指定表和分区来预先缓存,查询分析更高效

存算分离架构:

•计算资源动态伸缩

•海量的存储空间

•稳定可靠的存储服务

•计算节点剩余的磁盘、内存资源可以用于缓存加速

数据湖实操讲解【JindoFS 缓存加速】第十四讲:指定表和分区来预先缓存,查询分析更高效

指定表和分区来预先缓存:

TPC-DS生成的标准数仓数据:

维表:例item、store 经常访问,可预先缓存

事实表:采用时间分区

数据湖实操讲解【JindoFS 缓存加速】第十四讲:指定表和分区来预先缓存,查询分析更高效

二、功能介绍

JindoFS缓存模式架构图:

数据湖实操讲解【JindoFS 缓存加速】第十四讲:指定表和分区来预先缓存,查询分析更高效

架构介绍:

  • Jindo Namespace Service:JindoFS 元数据管理以及 Storage 服务的管理
  • Jindo Storage Service:用户数据的管理包含本地数据的管理和OSS上数据的管理
  • Jindo SDK 客户端:所有上层计算引擎通过JindoFS SDK提供的客户端访问JindoFS文件系统,从而实现对后端存储实现缓存加速


计算服务通过Jindo SDK访问数据,Jindo SDK从Jindo Namespace Service查询缓存位置信息,然后向集群中的Jindo Storage Service读取缓存数据,如果命中缓存直接返回;如果没有命中缓存,则从OSS读取数据,并将缓存写入Jindo Storage Service,供下次使用。


三、使用方法

部署缓存服务

  • 下载最新 Releaseb2smartdata-x.x.x.tar.gz,解压并部署到集群所有节点上
  • 修改配置文件conf/bigboot.cfg

  数据湖实操讲解【JindoFS 缓存加速】第十四讲:指定表和分区来预先缓存,查询分析更高效

  • 修改 sbin/nodes,配置所有storage service的节点列表
  • 启动所有服务 ./sbin/start-service.sh


参考网址:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md

部署Jindo SDK

  • 安装 jar包:下载最新的jar包 jindofs-sdk-x.x.x.jar,在所有 Hadoop 节点安装。

cp ./jindofs-sdk-*.jar /share/hadoop/hdfs/lib/jindofs-sdk.jar

  • 配置 JindoFS 实现类:将JindoFS 实现类配置到Hadoop的core-site.xml中
  • OSSAccess KeyAccess Key SecretEndpoint等预先配置在Hadoopcore-site.xml中。

  数据湖实操讲解【JindoFS 缓存加速】第十四讲:指定表和分区来预先缓存,查询分析更高效 

  数据湖实操讲解【JindoFS 缓存加速】第十四讲:指定表和分区来预先缓存,查询分析更高效

指定表和分区来预先缓存

cache命令和uncache命令:

  数据湖实操讲解【JindoFS 缓存加速】第十四讲:指定表和分区来预先缓存,查询分析更高效

  数据湖实操讲解【JindoFS 缓存加速】第十四讲:指定表和分区来预先缓存,查询分析更高效

四、实操演示


点击回放链接,直接观看第14讲视频回放,获取讲师实例讲解:

https://developer.aliyun.com/live/246996





Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

  数据湖实操讲解【JindoFS 缓存加速】第十四讲:指定表和分区来预先缓存,查询分析更高效

上一篇:SpriteBuilder代码中弱引用(weak)需要注意的地方


下一篇:Spark 大数据处理最佳实践