数据湖实操讲解【JindoFS 缓存加速】第十五讲：云上计算云下数据：HDFS 缓存加速

2022-01-27 13:43:39

本期导读：【JindoFS 缓存加速】第十五讲

主题：云上计算云下数据：HDFS 缓存加速

讲师：抚月，阿里巴巴计算平台事业部开源大数据平台技术专家

内容框架：

背景介绍
功能介绍
使用方法
实操演示

直播回放链接：（15讲）

https://developer.aliyun.com/live/246996

一、背景介绍

问题和挑战：

传统的大数据服务，通常是自己部署一套 Hive、Spark、HDFS 在线下的 IDC 机房。随着云计算越来越成熟，带来弹性扩容运维方便节省成本等诸多优点，越来越多企业开始将大数据平台搬到云上。首先他们会将 Hive、Spark 等计算服务搬到云上，在云上执行计算。云下 IDC 的 HDFS 集群存在历史数据；有些客户存在敏感数据，倾向于继续保留于云下；或者因历史原因保留在其他云厂商上，而 HDFS 集群数据搬到云上需要时间，这时候就会涉及到跨机房/跨云访问 HDFS 数据。

云*问云下 HDFS 数据存在以下问题：

集群之间存在网络延时和带宽限制
作业突发流量核心集群磁盘/网络被打满

为解决以上问题，必须引入 HDFS 缓存加速。

数据湖实操讲解【JindoFS 缓存加速】第十五讲：云上计算云下数据：HDFS 缓存加速

二、功能介绍

在计算集群上部署一套 jindofs，jindofs 具有分布式缓存的能力：

利用计算集群闲置资源(云盘/本地盘/内存)进行数据缓存，加速计算
进行流量控制，避免计算集群占用核心集群过多带宽

数据湖实操讲解【JindoFS 缓存加速】第十五讲：云上计算云下数据：HDFS 缓存加速

JindoFS 缓存模式架构图：

数据湖实操讲解【JindoFS 缓存加速】第十五讲：云上计算云下数据：HDFS 缓存加速

架构介绍：

Jindo Namespace Service：JindoFS 元数据管理以及 Storage 服务的管理
Jindo Storage Service：用户数据的管理包含本地数据的管理和 OSS 上数据的管理
Jindo SDK 客户端：所有上层计算引擎通过 JindoFS SDK 提供的客户端访问 JindoFS 文件系统，从而实现对后端存储实现缓存加速

计算服务通过 Jindo SDK 访问数据，Jindo SDK 从 Jindo Namespace Service 查询缓存位置信息，然后向集群中的 Jindo Storage Service 读取缓存数据，如果命中缓存直接返回；如果没有命中缓存，则从 OSS 读取数据，并将缓存写入 Jindo Storage Service，供下次使用。