分布式计算平台Spark:Streaming
一、重点
-
离线案例
- 工作中开发代码流程或者方式
- SparkCore + SparkSQL:熟悉代码开发
- DSL:when(条件,成立的返回值).otherwise(不成立的返回值)
- SQL:with 别名 as (SQL) select * from 别名
- 工具类补充:配置文件解析、IP解析工具类
-
流式计算的介绍
- 目的:实现实时数据流的处理,构建实时应用
- 实时数据分析
- 实时推荐系统
- 实时风控系统
- 实时物联网系统……
- 保证:整个过程都是实时的
- 数据生成
- 数据采集:Flume
- 数据存储:Kafka、HBASE、Redis
- 数据计算:SparkStreaming、Flink
- 分类
- 真实时计算:以数据为单位,每产生一条,就实时计算一条数据
- Spark StructStreaming【实验阶段】、Flink
- 准实时计算:以微小批处理时间来模拟实时计算,效果类型
- 每200ms处理一次数据
- SparkStreaming
- 真实时计算:以数据为单位,每产生一条,就实时计算一条数据
- 目的:实现实时数据流的处理,构建实时应用
-
问题
-
对封装方法不熟悉:不知道参数、
-