Spark Streaming實時流式數據處理有何優勢？Hadoop大數據計算框架分析，數道雲

原創

2019-05-22 14:05

Spark Streaming

Spark Streaming覈對實時流式數據的處理具有可擴展性、高吞吐量、可容錯性。我們可以從kafka、flume、Twitter、 ZeroMQ、Kinesis等源獲取數據，也可以通過高階函數map、reduce、join、window等組成的複雜算法計算出數據。最後，處理後的數據可以推送到文件系統、數據庫、實時儀表盤中。事實上，你可以將處理後的數據應用到Spark的機器學習算法、圖處理算法中去。

Spark Streaming接收實時的輸入數據流，然後將這些數據切分爲批數據供Spark引擎處理，Spark引擎將數據生成最終的結果數據。

Spark是UC Berkeley AMP lab所開源的類HadoopMapReduce的通用並行計算框架，Spark基於map reduce算法實現分佈式計算，擁有MapReduce所具有的優點；但不同於MapReduce的是Job中間輸出和結果是保存在內存中，從而不再需要讀寫HDFS。因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的map reduce的算法。

Spark重要性：
（1）Spark提供的框架能夠實現高級分析，如：查詢加速、機器學習算法、圖形處理、流分析等等。

（2）Spark實現快速、精準的數據分析方式。

（3）Spark提供了不同層面的靈活性。

（4）Spark借Hadoop之勢，與Hadoop無縫結合；接着Shark（Spark上的數據倉庫實現）借了Hive的勢。

2.Streaming流計算框架

流是現在推特、微博、微信、圖片服務以及物聯網、位置服務等等的重要數據形態，因此流計算正顯得前所未有的重要。流計算框架是所有互聯網服務商的核心基礎架構，Amazon、Microsoft都已經推出了Event消息總線雲服務平臺，而facebook\twitter等更是將自己的流計算框架開源。

Spark Streaming專門設計用於處理流式數據。通過Spark Streaming，可以快速地將數據分析處理環節，具有高的吞吐量、更快速的失敗恢復。

波若大數據計算服務平臺（BR-ODP）支持的數據批處理引擎MapReduce、Tez和Spark，而對於實時的流式計算框架支持storm和spark streaming。大數據的成熟的資源管理框架支持YARN和MESOS，可以通過YARN進行資源管理的組件或者計算框架（Hive、Sqoop、Spark），BR-ODP以YARN爲中心設計，提供業界最好的YARN支持以及YARN和整個Hadoop生態系統的結合。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark Streaming實時流式數據處理有何優勢？Hadoop大數據計算框架分析，數道雲

BR-MLP基於spark+Hadoop分佈式數據挖掘解決方案功能剖析

2019年優選大數據計算平臺搭建方案之BR-odp數據安全、管理模塊，數道雲大數據

2019年國內Hadoop大數據平臺專業的計算引擎：MapReduce+Tez+Spark,數道雲

Spark Streaming實時流式數據處理有何優勢？Hadoop大數據計算框架分析，數道雲

武漢BR-MLP數據挖掘平臺之構建分類或迴歸模型12個算法，數道雲大數據

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結