MapReduce及Spark批处理、Spark SQL只能进行离线计算,无法满足即时性业务需求,如实时推荐、实时网站性能分析等。
流式计算可以解决这些问题,目前有三种比较常用的流式计算框架,它们分别是Storm,Spark Streaming和Flink。
Spark Streaming原理是接受实时传入的数据流,然后将数据按批次(batch)进行划分,然后再将这部分数据交由Spark引擎进行处理,处理完成后将结果输出到外部。
下面使用一个简单的例子来展示。
在一台Linux电脑上通过NetCat实现网络流发送单词数据,Spark Streming与NetCat进程通信,读取到单词后,就进行词频分析,并在控制台上输出。
一、首先在一台虚拟机(hp301)上打开NetCat,绑定端口号为9999
nc -lk 9999
二、在IDEA中,首先引入Spark Streaming依赖:
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming_2.13</artifactId>
<version>3.2.0</version>
</dependency>
三、编写代码:
import com.alan.StreamingLog.logInfo
import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext._
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.internal.Logging
object TestStreming extends Logging{
def main(args: Array[String]) {
val log4jInitialized = Logger.getRootLogger.getAllAppenders.hasMoreElements
if (!log4jInitialized) {
// We first log something to initialize Spark's default logging, then we override the
// logging level.
logInfo("Setting log level to [WARN] for streaming example." +
" To override add a custom log4j.properties to the classpath.")
Logger.getRootLogger.setLevel(Level.WARN)
} // Create the context with a 1 second batch size
val sparkConf = new SparkConf().setAppName("NetCatWordCount").setMaster("local[2]")
val ssc = new StreamingContext(sparkConf, Seconds(1))
// Create a socket stream on target ip:port and count the
// words in input stream of \n delimited text (eg. generated by 'nc')
// Note that no duplication in storage level only for running locally.
// Replication necessary in distributed scenario for fault tolerance.
//创建SocketInputDStream,接收来自ip:port发送来的流数据
val lines = ssc.socketTextStream(args(0), args(1).toInt, StorageLevel.MEMORY_AND_DISK_SER)
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1)).reduceByKey(_+_)
wordCounts.print()
ssc.start()
ssc.awaitTermination()
}
}
四、测试
在netcat中输入单词,并逐行发送。
在IDEA的控制台中可见分析后的结果。