Spark Streaming 再學習

原創

2018-08-25 00:02

Hadoop的批處理系統是這樣的：

Apache Flume基於最優的HDFS塊大小（64MB）將文件寫入到每小時的桶中
每天定時執行MapReduce (Scalding) 任務N次
Apache Sqoop將結果移入數據倉庫
延遲是~1小時之後，加上Hadoop的處理時間

Spark流式數據處理解決方案：

Flume將點擊流數據寫入HDFS
Spark每5秒鐘從HDFS上讀取數據
輸出到一個鍵—值存儲並更新預測模型

開發人員可以根據HDFS當中的某個文件創建一個RDD，將該RDD轉換爲SchemaRDD、利用Spark SQL對其進行查詢，而後將結果交付給MLlib庫。最後，結果RDD可以被插入到Spark Streaming當中，從而充當消息交付機制的預測性模型。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章