数据湖实操讲解【数据迁移】第三讲：如何将 HDFS 海量文件归档到OSS

2021-11-10 12:48:24

本期导读：【数据迁移】第三讲

主题：如何将 HDFS 海量文件归档到 OSS

讲师：辰石，阿里巴巴计算平台事业部 EMR 技术专家

内容框架：

背景介绍
具体功能详解
使用实例

直播回放链接：（3/4讲）

https://developer.aliyun.com/live/246750

背景简述

HDFS 数据迁移

用户需要将数据存储在 IDC 机房的 HDFS 的集群内。
HDFS 的集群的空间依赖本地磁盘空间，本地磁盘空间有限，但是业务数据不断增长。
计算存储分离虽然可以不用担心存储容量，但是对象存储相关性能可能不及本地 HDFS 性能。
业务数据的时效性，业务数据随时间迁移数据价值也会相对降低，从而导致数据的存储成本上升。

HDFS 数据存储成本

考虑到实际使用 HDFS 会有3副本以及一定的预留空间，我们以 HDFS 3 副本、80% 使用率进行成本计算，参考 https://www.aliyun.com/price/product#/ecs/detail

HDFS / OSS 存储成本对比

OSS 归档数据的存储成本只有 HDFS 数据存储成本的 20% , OSS冷归档的存储不到 HDFS 数据存储的 10% 。

具体详解

HDFS 数据归档

Jindo DistCp 工具

全量支持 HDFS / OSS / S3 之间的的数据拷贝场景
重点优化 HDFS / OSS 数据拷贝场景，支持 No-Rename 拷贝
支持 DistCp 过程数据 CheckSum 校验

⭐具体可参考 Github：
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/tools/table_moveto.md

通过 DistCp 工具选项 —— policy 指定数据存储类型

/	选项说明
标准（standard）	数据迁移到OSS标准存储，可读
低频（ia）	数据迁移到OSS低频存储，可读
归档（archive）	数据迁移到OSS归档存储，不可直接读取
冷归档（coldArchive）	数据迁移到OSS冷归档存储，不可直接读取

HDFS 数据迁移命令

写入低频数据

hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey -- ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy ia --parallelism 10

写入归档数据

hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy archive --parallelism 10

写入冷归档数据

hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy coldArchive --parallelism 10

HDFS 命令查看数据类型

HDFS LS2 扩展命令

hdfs –fs –ls2 oss://xxxxx/xxxxx

可参考详细介绍链接

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_distcp/jindo_distcp_hdfsToOss_pre.md

演示操作

准备测试脚本，包含 DistCp 到OSS 各种存储类型的文件，测试文件大小为10M
执行测试脚本进行数据拷贝
查看 OSS 数据的存储类型

直接观看视频回放，获取实例讲解~https://developer.aliyun.com/live/246750

⭐Github链接：
https://github.com/aliyun/alibabacloud-jindofs

不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题，欢迎扫码加入钉钉交流群！

码农公寓

本期导读 ：【数据迁移】第三讲