Spark Streaming實時流式數據處理有何優勢?Hadoop大數據計算框架分析,數道雲

  1. Spark Streaming

Spark Streaming覈對實時流式數據的處理具有可擴展性、高吞吐量、可容錯性。我們可以從kafka、flume、Twitter、 ZeroMQ、Kinesis等源獲取數據,也可以通過高階函數map、reduce、join、window等組成的複雜算法計算出數據。最後,處理後的數據可以推送到文件系統、數據庫、實時儀表盤中。事實上,你可以將處理後的數據應用到Spark的機器學習算法、圖處理算法中去。
Spark Streaming

Spark Streaming接收實時的輸入數據流,然後將這些數據切分爲批數據供Spark引擎處理,Spark引擎將數據生成最終的結果數據。

Hadoop大數據平臺框架

Spark是UC Berkeley AMP lab所開源的類HadoopMapReduce的通用並行計算框架,Spark基於map reduce算法實現分佈式計算,擁有MapReduce所具有的優點;但不同於MapReduce的是Job中間輸出和結果是保存在內存中,從而不再需要讀寫HDFS。因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的map reduce的算法。

Spark重要性:
(1)Spark提供的框架能夠實現高級分析,如:查詢加速、機器學習算法、圖形處理、流分析等等。

(2)Spark實現快速、精準的數據分析方式。

(3)Spark提供了不同層面的靈活性。

(4)Spark借Hadoop之勢,與Hadoop無縫結合;接着Shark(Spark上的數據倉庫實現)借了Hive的勢。

2.Streaming流計算框架

流是現在推特、微博、微信、圖片服務以及物聯網、位置服務等等的重要數據形態,因此流計算正顯得前所未有的重要。流計算框架是所有互聯網服務商的核心基礎架構,Amazon、Microsoft都已經推出了Event消息總線雲服務平臺,而facebook\twitter等更是將自己的流計算框架開源。

Spark Streaming專門設計用於處理流式數據。通過Spark Streaming,可以快速地將數據分析處理環節,具有高的吞吐量、更快速的失敗恢復。

波若大數據計算服務平臺(BR-ODP)支持的數據批處理引擎MapReduce、Tez和Spark,而對於實時的流式計算框架支持storm和spark streaming。大數據的成熟的資源管理框架支持YARN和MESOS,可以通過YARN進行資源管理的組件或者計算框架(Hive、Sqoop、Spark),BR-ODP以YARN爲中心設計,提供業界最好的YARN支持以及YARN和整個Hadoop生態系統的結合。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章