首页 > 其他 > 详细

从WordCount入门Spark Streaming

时间:2020-04-01 15:07:53      阅读:59      评论:0      收藏:0      [点我收藏+]

一、概述

? Spark Streaming 是对Spark-core API 的一个扩展,它能够实现对实时数据流的流式处理,并具有很好的可扩展性、高吞吐量和容错性。

? Spark Streaming支持多种数据输入和输出:

技术分享图片

二、WordCont详解

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

object FileWordCount {
  def main(args: Array[String]): Unit = {
    //创建一个sparkconf对象,其中local[2]表示任务运行在本地且需要两个CUP
    val sparkconf = new SparkConf().setMaster("local[2]").setAppName("FileWordCount")
    //创建StreamingContext对象,rdd批次处理间隔设为1秒
   	val ssc = new StreamingContext(sparkconf,Seconds(5))

 	//从hdfs中读取文件,生成DStream
    val lines = ssc.textFileStream("file:///usr/local/data/test")
    //用空格分割单词并计数
    val res = lines.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
    res.print()
    
    //启动spark streaming
    ssc.start()
    //等待直到任务停止
    ssc.awaitTermination()
  }
}

上面的WordCount和spark-core中的WordCount在关键代码上几乎一致,从中不难想象出spark streaming其实是用rdd来处理的。事实上也是如此:

? 对于流式输入的数据流(spark streaming中叫做DSteam),spark streaming接收实时输入数据流并将数据划分为一个个小的批次供 Spark Engine 处理,最终生成多个批次的结果流。

技术分享图片

三、核心概念

(1)StreamingContext

StreamingContext是spark streaming程序的入口,每一个spark streaming程序都要使用这个对象进行初始化。

StreamingContext有2种构造函数,分别为

  1. 使用SparkContext和batch interval
  2. 使用SparkConf和batch interval

其中batch interval表示sparkstreaming接受的每一批DStream之间的时间间隔,一般用Seconds类表示

(2)DStream

离散数据流(DStream)是 Spark Streaming 最基本的抽象。它代表了一种连续的数据流,要么从某种数据源提取数据,要么从其他数据流映射转换而来。DStream 内部是由一系列连续的RDD组成。

在上面的WordCount程序中,读取hdfs上的文件生成DStream ,将 lines 这个 DStream 转成 words DStream 对象,其实作用于 lines 上的 flatMap 算子,会施加于 lines 中的每个 RDD 上,并生成新的对应的 RDD,而这些新生成的 RDD 对象就组成了 words 这个 DStream 对象。其过程如下图所示:

技术分享图片

从WordCount入门Spark Streaming

原文:https://www.cnblogs.com/xyzlovehadoop/p/12612436.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!