spark作业

2024-03-29 14:48:28

假定用户有某个周末网民网购停留时间的日志文本，基于某些业务要求，要求开发

Spark应用程序实现如下功能：

1、实时统计连续网购时间超过半个小时的女性网民信息。

2、周末两天的日志文件第一列为姓名，第二列为性别，第三列为本次停留时间，单

位为分钟，分隔符为“,”。

数据：

log1.txt：周六网民停留日志

LiuYang,female,20


YuanJing,male,10


GuoYijun,male,5


CaiXuyu,female,50


Liyuan,male,20


FangBo,female,50


LiuYang,female,20


YuanJing,male,10


GuoYijun,male,50


CaiXuyu,female,50


FangBo,female,60

log2.txt：周日网民停留日志

LiuYang,female,20

YuanJing,male,10

CaiXuyu,female,50

FangBo,female,50

GuoYijun,male,5

CaiXuyu,female,50

Liyuan,male,20

CaiXuyu,female,50

FangBo,female,50

LiuYang,female,20

YuanJing,male,10

FangBo,female,50

GuoYijun,male,50

CaiXuyu,female,50

FangBo,female,60

统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。

1、接收Kafka中数据，生成相应DStream。

2、筛选女性网民上网时间数据信息。

3、汇总在一个时间窗口内每个女性上网时间。

4、筛选连续上网时间超过阈值的用户，并获取结果。

码农公寓

相关文章