Spark Streaming窗口函数

一.简介

Spark Streaming还提供了窗口计算,可以在数据的滑动窗口上应用转换。下图说明了此滑动窗口。
在这里插入图片描述
如该图所示,每当窗口滑动在源DStream,落入窗口内的源RDDS被组合及操作以产生RDDS的窗口DStream。在这种特定情况下,该操作将应用于数据的最后3个时间单位,并以2个时间单位滑动。这表明任何窗口操作都需要指定两个参数。

  1. 窗口长度 - 窗口的持续时间。
  2. 滑动间隔 -进行窗口操作的间隔。

这两个参数必须是源DStream的批处理间隔的倍数。

让我们用一个例子来说明窗口操作。每10秒计算最近30秒数据,生成一次字数统计。为此,我们必须在最近30秒数据上使用reduceByKey来对pairsDStream (word, 1)对应用该操作。这是通过操作完成的reduceByKeyAndWindow。

// Reduce last 30 seconds of data, every 10 seconds
// windowLength和slideInterval
val windowedWordCounts = pairs.reduceByKeyAndWindow((a:Int,b:Int) => (a + b), Seconds(30), Seconds(10))

二.常用窗口算子

在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章