SparkStreaming從入門到放棄(二)

本節主要針對Dstream 靜態模板的講解。回顧RDD,rdd是一個只讀的數據集,因此不難知道,dstream也是一個數據集,也有transfermation和output。在dstreaming中,transfermation有map\filter\join\reduce等,output有print\save\foreachRDD等。

看上節的例子:

ssc.socketTextStream("localhost", 9999).flatMap(_.split(“ ”)).map(word=>(word,1)).reduceBykey(_+_).print();

上面的調用方式爲:

我們知道在實際運行job時是從後向前回溯的,RDD 的計算是被觸發了以後才進行 lazy 求值的,即當真正求 d 的值的時候,先計算上游 dependency c;而計算 c 則先進一步計算 c 的上游 dependency a  bSpark Streaming 裏則與 RDD DAG 的反向表示保持了一致,對 DStream 也採用的反向表示。D.print()  new 一個 d 的一個下游 ForEachDStream x —— x 中記明瞭需要做的操作 func = print() ,然後在每個 batch 動態生成 RDD 實例時,以 x 爲根節點、進行一次 BFS(寬度優先遍歷

 

總結:

  • Spark Streaming 記錄整個 DStream DAG 的方式,就是通過一個 DStreamGraph 實例記錄了到所有的 output stream 節點的引用
    • 通過對所有 output stream 節點進行遍歷,就可以得到所有上游依賴的 DStream
    • 不能被遍歷到的 DStream 節點 —— 如 g 和 h —— 則雖然出現在了邏輯的 DAG 中,但是並不屬於物理的 DStreamGraph,也將在 Spark Streaming 的實際運行過程中不產生任何作用
  •  DStreamGraph 實例同時也記錄了到所有 input stream 節點的引用
    • DStreamGraph 時常需要遍歷沒有上游依賴的 DStream 節點 —— 稱爲 input stream —— 記錄一下就可以避免每次爲查找 input stream 而對 output steam 進行 BFS 的消耗
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章