本期导读 :【JindoTable 计算加速】第十九讲
主题:Spark 对 OSS 上的 Parquet 数据进行查询加速uid + JindoFS 对 OSS 上数据进行训练加速
讲师:流影,阿里巴巴计算平台事业部 EMR 技术专家
内容框架:
- JindoFS 计算加速介绍
- 使用 JindoFS 计算加速
- 演示
直播回放链接:(19讲)
https://developer.aliyun.com/live/247100
一、JindoFS 计算加速介绍
背景介绍:
当前数据湖市场规模正在飞速增长,随着数据规模的增长,基于高性能的数据湖分析场景也在逐渐增加。当前很多数据湖架构基于对象存储,相对于本地存储,其性能受到网络带宽和负载机器的影响,存在性能瓶颈和波动,同时因为远端读取 OSS 单次 IO 比较慢,在列存等一些随机读比较多的场景,性能差距尤其明显(无法预读)。在此背景下,稳定且高性能的数据读取方案已经迫在眉睫。
JindoFS 计算加速:
JindoFS 通过 Native Engine ,能够加速存储在 JindoFS / OSS 上面的 ORC / Parquet 文件, 配合 filter pushdown,在 Spark / Hive / Presto 上明显的提升查询速度。
JindoFS 计算加速架构:
TPCDS 5T 测试:
TPCDS 5T 规模的 Spark 测试,使用 JindoFS 计算加速方案,平均 query 查询性能整体上较 Spark + parquet 的方案提升22.9%( GeoMean),总时间缩短从8158秒缩短到7309秒,下降12%
参考文章:
tpcds 5t 查询性能报告 https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/comparisons/jindotable_native_vs_spark_parquet.md
q96 查询对比:
spark 查询:
JindoFS 查询加速 :
结论:下推 filter 之后读取相同数据量时间缩短近一倍
二、使用 JindoFS 计算加速
Spark 使用 JindoFS 计算加速读取 Parquet 数据
前提:
已创建 EMR-3.35.0 及后续版本或 EMR-4.9.0 及后续版本,且 Parquet 文件已存放至JindoFS 或 OSS
Spark 使用 JindoFS 计算加速:
添加配置 spark.sql.extensions=com.aliyun.emr.sql.JindoTableExtension
三、演示
演示内容:
- Spark 2.4 使用 JindoFS 计算加速
- Spark 2.4 任务界面查看计算加速相关信息
参考文章:
计算加速使用文档 https://help.aliyun.com/document_detail/213329.html?spm=a2c4g.11186623.6.1123.5d04196bvr9MzP
⭐点击回放链接,直接观看第19讲视频回放,获取讲师实例讲解:
https://developer.aliyun.com/live/247100
⭐Github链接:
https://github.com/aliyun/alibabacloud-jindofs
不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!