Spark Streaming 再學習

Hadoop的批處理系統是這樣的:
  • Apache Flume基於最優的HDFS塊大小(64MB)將文件寫入到每小時的桶中
  • 每天定時執行MapReduce (Scalding) 任務N次
  • Apache Sqoop將結果移入數據倉庫
  • 延遲是~1小時之後,加上Hadoop的處理時間
Spark流式數據處理解決方案
  • Flume將點擊流數據寫入HDFS
  • Spark每5秒鐘從HDFS上讀取數據
  • 輸出到一個鍵—值存儲並更新預測模型
開發人員可以根據HDFS當中的某個文件創建一個RDD,將該RDD轉換爲SchemaRDD、利用Spark SQL對其進行查詢,而後將結果交付給MLlib庫。最後,結果RDD可以被插入到Spark Streaming當中,從而充當消息交付機制的預測性模型。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章