台部落
註冊
登錄
寫文章
請輸入正確的登錄賬號或密碼
註冊
忘記密碼
首頁
Spark
正文
Spark Streaming 再學習
原創
zhc199
2018-08-25 00:02
Hadoop的批處理系統是這樣的:
Apache Flume基於最優的HDFS塊大小(64MB)將文件寫入到每小時的桶中
每天定時執行MapReduce (Scalding) 任務N次
Apache Sqoop將結果移入數據倉庫
延遲是~1小時之後,加上Hadoop的處理時間
Spark流式數據處理
解決方案
:
Flume將點擊流數據寫入HDFS
Spark每5秒鐘從HDFS上讀取數據
輸出到一個鍵—值存儲並更新預測模型
開發人員可以根據HDFS當中的某個文件創建一個RDD,將該RDD轉換爲SchemaRDD、利用Spark SQL對其進行查詢,而後將結果交付給MLlib庫。最後,結果RDD可以被插入到Spark Streaming當中,從而充當消息交付機制的預測性模型。
發表評論
登录
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
Spark源碼分析-以wordcount爲入口進行spark-submit源碼分析
wangweislk
2018-08-27 19:22:04
spark源碼分析(2)-源碼閱讀環境準備
wangweislk
2018-08-27 19:21:52
【異常】SparkStreaming拋出Listener SQLListener threw an exception異常
wangweislk
2018-08-27 19:21:52
Flume+Kafka+SparkStreaming整合
wangweislk
2018-08-27 19:21:52
【異常】SparkStreaming長時間運行出現: Dropping SparkListenerEvent because no remaining room in event queue
wangweislk
2018-08-27 19:21:51
Spark Kafka(createDirectStream)自己管理offset
wangweislk
2018-08-27 19:21:51
Spark Sparrow
qq451954040
2018-08-27 15:32:30
在CDH5.4.5版本中使用Scala+sbt+Eclipse+Java遇到的問題總結
我心明月
2018-08-27 14:15:16
Spark安裝
EaWind
2018-08-27 13:43:27
Spark 1.3 環境安裝與配置
xclyfe
2018-08-27 13:05:42
使用scala計算兩個Gps點之間的距離
mobboss111
2018-08-27 10:42:17
Spark2.2.0集羣搭建部署之【基礎配置篇】
斌小哥
2018-08-27 10:38:29
Spark2.2.0集羣搭建部署之【HADOOP集羣篇】
斌小哥
2018-08-27 10:38:29
Spark2.2.0集羣搭建部署之【SPARK集羣篇】
斌小哥
2018-08-27 10:38:29
Spark2.2.0集羣搭建部署之【無密訪問篇】
斌小哥
2018-08-27 10:38:29
Z
zhc199
24小時熱門文章
最新文章
docker:nodejs :git:EC2:ubuntu
docker 構建網站初探
docker:nodejs :git:EC2:ubuntu <網站發佈!>
Docker on Windows--Installation Problems
SVM基礎及java源碼實現
最新評論文章
Mac下配置sublime實現LaTeX
https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co
linux以太網驅動總結