Flink on Zeppelin 流计算处理最佳实践

开源大数据社区 & 阿里云 EMR 系列直播 第十二期


主题:Flink on Zeppelin 流计算处理最佳实践


讲师:简锋,阿里云 EMR 数据开发平台 负责人


内容框架:

  • 大数据概览
  • Flink 学习框架
  • EMR Studio 上的流计算最佳实践
  • 演示


直播回放:扫描文章底部二维码加入钉群观看回放,或进入链接https://developer.aliyun.com/live/247106



一、大数据概览

  • 大数据处理 ETL (Data  → Data)
  • 大数据分析 BI   (Data  →  Dashboard)
  • 机器学习    AI   (Data  →  Model)

Flink on Zeppelin 流计算处理最佳实践

二、Flink 学习框架

Flink 要点

  • Stateful
  • Time
  • Flink Architecture
  • Flink API
  • Flink Configuration
  • Flink Log

Stateful:

  • Why

 • 流计算的及时性

 • 流计算的 unbounded

  • When

 • Window

 • Join

 • Pattern

  • How

 • statebackend

Time

  • Event time
  • Processing time
  • Watermark

Flink Architecture

Flink on Zeppelin 流计算处理最佳实践

Flink API

Flink on Zeppelin 流计算处理最佳实践


Flink Configuration

  • Cluster Configuration
  • Job Configuration
  • Statebackend
  • Resource Manager
  • SQL/Python


参考文档:https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/deployment/config/

Flink Log

Flink on Zeppelin 流计算处理最佳实践

三、EMR Studio 上的流计算最佳实践

EMR Studio 特性:

  • 兼容开源组件
    EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。

Flink on Zeppelin 流计算处理最佳实践

  • 支持连接多个集群
  • 适配多个计算引擎
  • 交互式开发 + 作业调度无缝衔接
  • 适用多种大数据应用场景
  • 计算存储分离

Flink Clients

Flink on Zeppelin 流计算处理最佳实践

Flink on Zeppelin (Phase 1) - Interactive Flink Client

Flink on Zeppelin 流计算处理最佳实践

Flink on Zeppelin (Phase 2) - Interactive JobManager

Flink on Zeppelin 流计算处理最佳实践

Flinkon Zeppelin 主要 Feature

Flink on Zeppelin 流计算处理最佳实践

四、演示


具体产品介绍和演示,可以扫描文章底部钉钉群二维码,进群观看直播回放哦!

也可以点击以下链接直接观看回放:

https://developer.aliyun.com/live/247106






后续我们会在钉钉群定期推送精彩案例,邀请更多技术大牛直播分享。欢迎有兴趣的同学扫下方二维码加入钉钉群进行交流和技术分享。关注公众号,锁定每周精彩分享内容!

Flink on Zeppelin 流计算处理最佳实践

上一篇:【asp.net core 系列】5 布局页和静态资源


下一篇:java笔试三