Spark 大数据处理最佳实践

开源大数据社区 & 阿里云 EMR 系列直播 第十一期


主题:Spark 大数据处理最佳实践


讲师:简锋,阿里云 EMR 数据开发平台 负责人


内容框架:

  • 大数据概览
  • 如何摆脱技术小白
  • Spark SQL 学习框架
  • EMR Studio 上的大数据最佳实践


直播回放:扫描文章底部二维码加入钉群观看回放,或进入链接https://developer.aliyun.com/live/247072



一、大数据概览

  • 大数据处理 ETL (Data → Data)
  • 大数据分析 BI  (Data → Dashboard)
  • 机器学习 AI   (Data → Model)

Spark 大数据处理最佳实践


二、如何摆脱技术小白

什么是技术小白?

  • 只懂表面,不懂本质

比如:只懂得参考别人的 Spark 代码,不懂得 Spark 的内在机制,不懂得如何调优 Spark Job

摆脱技术小白的药方

  • 懂得运行机制
  • 学会配置
  • 学会看 Log

懂得运行机制:Spark SQL Architecture

Spark 大数据处理最佳实践


学会配置:如何配置 Spark App

  • 配置 Driver

• spark.driver.memory

• spark.driver.cores

  • 配置 Executor

• spark.executor.memory

• spark.executor.cores

  • 配置 Runtime

• spark.files

• spark.jars

  • 配置 DAE
  • …..........

参考网址:https://spark.apache.org/docs/latest/configuration.html


学会看 Log:Spark Log

Spark 大数据处理最佳实践

三、Spark SQL  学习框架

Spark SQL 学习框架( 结合图形/几何)

1. Select Rows

Spark 大数据处理最佳实践

Spark 大数据处理最佳实践

2. Select Columns

Spark 大数据处理最佳实践

Spark 大数据处理最佳实践

3. Transform Column

Spark 大数据处理最佳实践

Spark 大数据处理最佳实践

4. Group By / Aggregation

Spark 大数据处理最佳实践

Spark 大数据处理最佳实践

5. Join

Spark 大数据处理最佳实践

Spark 大数据处理最佳实践

Spark SQL 执行计划

1. Spark SQL - Where

Spark 大数据处理最佳实践

2. Spark SQL - Group By

Spark 大数据处理最佳实践

3. Spark SQL - Order by

Spark 大数据处理最佳实践

四、EMR Studio 实践

EMR Studio 特性:

  • 兼容开源组件
  • 支持连接多个集群
  • 适配多个计算引擎
  • 交互式开发 + 作业调度无缝衔接
  • 适用多种大数据应用场景
  • 计算存储分离

1. 兼容开源组件

  • EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。

Spark 大数据处理最佳实践

2. 支持连接多个集群

  • 一个 EMR Studio 可以连接多个 EMR 计算集群,您可以很方便地切换计算集群,提交作业到不同的计算集群上运行。

Spark 大数据处理最佳实践

3. 适配多个计算引擎

  • 自动适配 Hive、Spark、Flink、Presto、Impala 和 Shell 等多个计算引擎,无需复杂配置,多个计算引擎间协同工作

Spark 大数据处理最佳实践

4. 交互式开发 + 作业调度无缝衔接

Notebook + Airflow : 无缝衔接开发环节和生产调度环节

  • 利用交互式开发模式可以快速验证作业的正确性.
  • 在 Airflow 里调度 Notebook 作业,最大程度得保证开发环境和生产环境的一致性,防止由于开发阶段和生产阶段环境不一致而导致的问题。

Spark 大数据处理最佳实践


5. 适用多种大数据应用场景

  • 大数据处理 ETL
  • 交互式数据分析
  • 机器学习
  • 实时计算


6. 计算存储分离

  • 所有数据都保存在 OSS 上,包括:

用户 Notebook 代码

• 调度作业 Log

  • 即使集群销毁,也可以重建集群轻松恢复数据

Spark 大数据处理最佳实践

EMR Studio Demo 演示:


参考文档:https://help.aliyun.com/document_detail/208107.html?spm=a2c4g.11186623.6.845.6cfc24577t1RbI



具体产品介绍和演示,可以扫描文章底部钉钉群二维码,进群观看直播回放哦!

也可以点击以下链接直接观看回放:

   https://developer.aliyun.com/live/247072




后续我们会在钉钉群定期推送精彩案例,邀请更多技术大牛直播分享。欢迎有兴趣的同学扫下方二维码加入钉钉群进行交流和技术分享。关注公众号,锁定每周精彩分享内容!

Spark 大数据处理最佳实践

上一篇:数据湖实操讲解【JindoFS 缓存加速】第十四讲:指定表和分区来预先缓存,查询分析更高效


下一篇:数据湖实操讲解【AI 训练加速】第十六讲:Fluid + JindoFS 对 OSS 上数据进行训练加速