Spark Streaming 算子:reduceByKeyAndWindow

原創

lxp_火力全开

2019-02-01 13:53

注意:

window length(窗口長度) - 窗口的持續時間(圖3)
sliding interval(滑動時間間隔) - 執行窗口操作的時間間隔(圖2)
這兩個參數必須是DStream批處理的時間間隔的倍數

示例

代碼

object WindowApp {
  def main(args: Array[String]) {
    System.setProperty("hadoop.home.dir", "D:\\hadoop")

    // 準備工作
    val conf = new SparkConf().setMaster("local[2]").setAppName("WindowApp")
    val ssc = new StreamingContext(conf, Seconds(10))

    // 業務邏輯處理
    val lines = ssc.socketTextStream("hadoop000", 9999)  // 1 thread

    lines.flatMap(_.split(","))
      .map((_,1)).reduceByKeyAndWindow((a:Int,b:Int) => (a + b),
      Seconds(10), Seconds(5))
      .print()

    ssc.start()             // Start the computation
    ssc.awaitTermination()  // Wait for the computation to terminate

  }

如上:val ssc = new StreamingContext(conf, Seconds(5))
這個批處理時間設置爲10s會報錯
原因:是下面設置滑動時間是5s(應該是10s的倍數)
.map((_,1)).reduceByKeyAndWindow((a:Int,b:Int) => (a + b),
Seconds(10), Seconds(5))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Spark Streaming狀態操作: updateStateByKey、mapWithState

在Spark Streaming中，DStream的轉換分爲有狀態和無狀態兩種。無狀態的操作，即當前批次的處理不依賴於先前批次的數據，如map()、flatMap()、filter()、reduceByKey()、groupByKey()

2020-07-07 21:46:09

Spark Streaming（一）—— Spark Streaming介紹

文章目錄1. 什麼是Spark Streaming2. Spark Streaming特點3. 常用的實時計算引擎4. Spark Streaming內部結構5. StreamingContext對象創建方式6. 離散流DStre

2020-07-03 19:00:42

How-to: make spark streaming collect data from Kafka topics and store data into hdfs

Develop steps: Develop class which is used for connect kafka topics and store data into hdfs. In spark project: ./exam

chenfangfang_2015

2020-07-03 14:12:35

第四天：Spark Streaming

Spark Streaming概述 1. Spark Streaming是什麼 Spark Streaming用於流式數據的處理。Spark Streaming支持的數據輸入源很多，例如：Kafka、Flume、Twitter、Z

2020-07-02 16:37:09

Spark Streaming-NetworkWordCount

目錄一、spark streaming編程步驟二、spark streaming官方示例流程研究 1、NetworkWordCount 2、本地運行 a.設置參數：localhost 9999 b.終端鍵入nc -lk 9999，並輸

2020-06-30 18:05:11

spark消費kafka問題記錄(cdh5.16.2)

版本如下 kafka和spark都安裝完成後，執行spark2-shell竟然報錯 Error: A JNI error has occurred, please check your installation and try ag

hadoop程序猿

2020-06-28 19:49:54

初識Spark Streaming

文章目錄Spark Streaming特點Spark Streaming概覽Spark Streaming應用場景流處理過程Spark Streaming案例參考官網：http://spark.apache.org/strea

2020-06-27 13:32:34

大數據IMF傳奇行動絕密課程第85課：基於HDFS的SparkStreaming案例實戰和內幕源碼解密

基於HDFS的SparkStreaming案例實戰和內幕源碼解密 1、Spark Streaming on HDFS實戰 2、Spark Streaming on HDFS源碼解密 hadoop dfs -mkdir /libr

2020-06-27 09:57:41

大數據IMF傳奇行動絕密課程第100-101課：使用Spark Streaming+Spark SQL+Kafka+FileSystem綜合案例

使用Spark Streaming+Spark SQL+Kafka+FileSystem綜合案例 1、項目分析流程圖 2、項目代碼實戰 Flume sink到Kafka需要一個jar包支持 https://github.co

2020-06-27 09:57:41

大數據IMF傳奇行動絕密課程第84課：圖解StreamingContext、DStream、Receiver並結合源碼分析

圖解StreamingContext、DStream、Receiver並結合源碼分析 1、原理流程圖 2、源碼初探

2020-06-27 09:57:31

大數據IMF傳奇行動絕密課程第86課：SparkStreaming數據源Flume實際案例分享

SparkStreaming數據源Flume實際案例分享 1、Flume簡要介紹 2、Spark Streaming on Flume案例介紹一、什麼是Flume? 　　flume 作爲 cloudera 開發的實時日誌

2020-06-27 09:57:31

Kafka偏移量(Offset)管理

1.定義 Kafka中的每個partition都由一系列有序的、不可變的消息組成，這些消息被連續的追加到partition中。partition中的每個消息都有一個連續的序號，用於partition唯一標識一條消息。 Offset記錄着

2020-06-26 03:29:54

SparkStreaming消費kafka中的數據保存到HBase中簡單demo

概述數據處理流程:kafka–>spark streaming -->hbase 最近在做數據處理,但是通過java api進行處理的,目前想通過spark去做處理,這裏記下了一個簡單的實現,但是生產上肯定不是那麼簡單的.後面會

爆发的~小宇宙

2020-06-25 02:39:05

Spark Streaming + Kafka Manager + (Kafka-spark-consumer) 組合

在之前的文章中提到了，使用 Spark Streaming + Kafka-spark-consumer 來應對Driver程序代碼改變，無法從checkpoint中反序列化的問題，即其會自動將kafka的topic中，每個par

2020-06-24 03:36:22

Spark streaming消費kafka程序報No output streams registered, so nothing to execute異常

在做kafka割接測試消費程序只消費不做數據處理時編寫代碼遇到了No output streams registered, so nothing to execute異常的問題：代碼如下： public void execute()

2020-06-23 22:31:25

24小時熱門文章

最新文章

最新評論文章