五種大數據框架你必須要知道

學習大數據不可不知的五種大數據框架,碼筆記分享大數據框架Hadoop、Storm、Samza、Spark和Flink五種大數據框架詳解:

一:Hadoop大數據框架

 

Hadoop

Hadoop


大數據框架?第一映入眼簾的就是這枚大象Hadoop,Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構,它是目前應用最廣泛的大數據工具,Hadoop擁有容錯率和極低的硬件價格。

 

Hadoop是成爲了一個廣闊的生態圈的批處理框架,Hadoop提出的Map和Reduce的計算模式簡潔而優雅,它實現了大量算法和組件。但是,由於Hadoop的計算任務需要在集羣的多個節點上多次讀寫,因此在速度上會稍顯劣勢,但是Hadoop的吞吐量也同樣是其他框架所不能匹敵的。

二:Storm大數據框架

Storm由Twitter開源並且託管在GitHub上的,Storm大數據框架與Hadoop的批處理模式不同,Storm採用的是流計算框架。但Storm與Hadoop相似之處是也提出了Spout和Bolt兩個計算角色。

舉個通俗的例子來說明Storm和Hadoop的不同之處,Hadoop類似水桶,而Storm類似水龍頭,想要獲取水,Hadoop是一桶一桶的去扛回來,而Storm只需要打開水龍頭就行了。Storm流計算框架使用的是內存,延遲上具有優勢,但是不會持久化數據。

Storm對Java、Ruby、Python等語言都有很好的支持。

三:Samza大數據框架

Samza大數據框架與Storm一樣都是流計算框架,Samza必須和Kafka共用,Samza目前只支持JVM語言。

四:Spark大數據框架

 

Spark和Flink

Spark和Flink


Spark大數據框架是一種混合式的計算框架,Spark自帶實時流處理工具;Spark也可以與Hadoop集成代替MapReduce;甚至Spark還可以單獨拿出來藉助HDFS等分佈式存儲系統部署集羣。

 

Spark的運算速度與Storm相似,Spark的速度大約爲Hadoop的一百倍,而Spark的成本要比Hadoop低,但是Spark目前還沒有Hadoop擁有上萬級別的集羣,所以現階段將Spark和Hadoop搭配起來使用是比較不錯的方案。

五:Flink大數據框架

Flink大數據框架也是一種混合式的計算框架,Fink與Spark相反的地方在於Fink重點在於處理流式數據,目前Fink還不算成熟。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章