spark作业

假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发

Spark应用程序实现如下功能:

1、实时统计连续网购时间超过半个小时的女性网民信息。

2、周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单

位为分钟,分隔符为“,”。

 

 

数据:

 

log1.txt:周六网民停留日志

 

LiuYang,female,20


YuanJing,male,10


GuoYijun,male,5


CaiXuyu,female,50


Liyuan,male,20


FangBo,female,50


LiuYang,female,20


YuanJing,male,10


GuoYijun,male,50


CaiXuyu,female,50


FangBo,female,60

 

log2.txt:周日网民停留日志

 

LiuYang,female,20

YuanJing,male,10

CaiXuyu,female,50

FangBo,female,50

GuoYijun,male,5

CaiXuyu,female,50

Liyuan,male,20

CaiXuyu,female,50

FangBo,female,50

LiuYang,female,20

YuanJing,male,10

FangBo,female,50

GuoYijun,male,50

CaiXuyu,female,50

FangBo,female,60

 

统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。

1、接收Kafka中数据,生成相应DStream。

2、筛选女性网民上网时间数据信息。

3、汇总在一个时间窗口内每个女性上网时间。

4、筛选连续上网时间超过阈值的用户,并获取结果。

 

上一篇:MySQL之外键


下一篇:mysql 数据类型 枚举类型与集合类型