SparkStreaming+Kafka流程:
流式数据-->Flume-->Kafka-->SparkStreaming/StructStreaming/Flink-->Redis/Hbase/HDFS/Mysql
连接Kafka方式:
Direct Approach(No Receivers):
1.KafkaUtils.createDirectStream直连方式,Streaming中每批次的每个job直接调用Simple Consumer API获取对应Topic数据,这种连接方式使用的最多,面试问的最多
2.Direct方式是直接连接Kafka分区来获取数据,从每隔分区直接去读数据大大提高并行能力
3.Direct方式调用Kafka低阶API(底层API),offset自己存储和维护,默认是由Spark维护在chenckpoint中,消除了与zk不一致的情况
4.也可以手动维护,把offset存在Mysql/Redis中
相关文章
- 02-14SparkStreaming
- 02-14SparkStreaming(一)——概述
- 02-14spark学习进度28(SparkStreaming)
- 02-14SparkStreaming运行原理
- 02-14kafka整合sparkStreaming及优化
- 02-14SparkStreaming 介绍
- 02-14SparkStreaming和Flink详细对比
- 02-14春城无处不飞花,小白带你侃SparkStreaming(原理引入篇)
- 02-14SparkStreaming读取Kakfa数据时发生OffsetOutOfRangeException异常
- 02-14sparkstreaming2.2使用checkpoint保存kafka偏移量