Spark3.2教程(八)一个简单的Spark Streaming处理网络流数据

        MapReduce及Spark批处理、Spark SQL只能进行离线计算,无法满足即时性业务需求,如实时推荐、实时网站性能分析等。
        流式计算可以解决这些问题,目前有三种比较常用的流式计算框架,它们分别是Storm,Spark Streaming和Flink。
        Spark Streaming原理是接受实时传入的数据流,然后将数据按批次(batch)进行划分,然后再将这部分数据交由Spark引擎进行处理,处理完成后将结果输出到外部。
        下面使用一个简单的例子来展示。
        在一台Linux电脑上通过NetCat实现网络流发送单词数据,Spark Streming与NetCat进程通信,读取到单词后,就进行词频分析,并在控制台上输出。

一、首先在一台虚拟机(hp301)上打开NetCat,绑定端口号为9999

nc -lk 9999

二、在IDEA中,首先引入Spark Streaming依赖:

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.13</artifactId>
    <version>3.2.0</version>
</dependency>

三、编写代码:

import com.alan.StreamingLog.logInfo
import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext._
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.internal.Logging


object TestStreming extends Logging{
  def main(args: Array[String]) {

    val log4jInitialized = Logger.getRootLogger.getAllAppenders.hasMoreElements
    if (!log4jInitialized) {
      // We first log something to initialize Spark's default logging, then we override the
      // logging level.
      logInfo("Setting log level to [WARN] for streaming example." +
        " To override add a custom log4j.properties to the classpath.")
      Logger.getRootLogger.setLevel(Level.WARN)
    }    // Create the context with a 1 second batch size
    val sparkConf = new SparkConf().setAppName("NetCatWordCount").setMaster("local[2]")
    val ssc = new StreamingContext(sparkConf, Seconds(1))

    // Create a socket stream on target ip:port and count the
    // words in input stream of \n delimited text (eg. generated by 'nc')
    // Note that no duplication in storage level only for running locally.
    // Replication necessary in distributed scenario for fault tolerance.
    //创建SocketInputDStream,接收来自ip:port发送来的流数据
    val lines = ssc.socketTextStream(args(0), args(1).toInt, StorageLevel.MEMORY_AND_DISK_SER)
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1)).reduceByKey(_+_)
    wordCounts.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

四、测试
在netcat中输入单词,并逐行发送。
Spark3.2教程(八)一个简单的Spark Streaming处理网络流数据
在IDEA的控制台中可见分析后的结果。
Spark3.2教程(八)一个简单的Spark Streaming处理网络流数据

上一篇:Spark介绍(学习笔记)


下一篇:Flink流处理-Task之KafkaSourceDataTask