五種大數據框架你必須要知道

原創

2020-07-04 02:20

學習大數據不可不知的五種大數據框架，碼筆記分享大數據框架Hadoop、Storm、Samza、Spark和Flink五種大數據框架詳解：

一：Hadoop大數據框架

Hadoop

大數據框架？第一映入眼簾的就是這枚大象Hadoop，Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構，它是目前應用最廣泛的大數據工具，Hadoop擁有容錯率和極低的硬件價格。

Hadoop是成爲了一個廣闊的生態圈的批處理框架，Hadoop提出的Map和Reduce的計算模式簡潔而優雅，它實現了大量算法和組件。但是，由於Hadoop的計算任務需要在集羣的多個節點上多次讀寫，因此在速度上會稍顯劣勢，但是Hadoop的吞吐量也同樣是其他框架所不能匹敵的。

Storm由Twitter開源並且託管在GitHub上的，Storm大數據框架與Hadoop的批處理模式不同，Storm採用的是流計算框架。但Storm與Hadoop相似之處是也提出了Spout和Bolt兩個計算角色。

舉個通俗的例子來說明Storm和Hadoop的不同之處，Hadoop類似水桶，而Storm類似水龍頭，想要獲取水，Hadoop是一桶一桶的去扛回來，而Storm只需要打開水龍頭就行了。Storm流計算框架使用的是內存，延遲上具有優勢，但是不會持久化數據。

Storm對Java、Ruby、Python等語言都有很好的支持。

Samza大數據框架與Storm一樣都是流計算框架，Samza必須和Kafka共用，Samza目前只支持JVM語言。

Spark和Flink

Spark大數據框架是一種混合式的計算框架，Spark自帶實時流處理工具；Spark也可以與Hadoop集成代替MapReduce；甚至Spark還可以單獨拿出來藉助HDFS等分佈式存儲系統部署集羣。

Spark的運算速度與Storm相似，Spark的速度大約爲Hadoop的一百倍，而Spark的成本要比Hadoop低，但是Spark目前還沒有Hadoop擁有上萬級別的集羣，所以現階段將Spark和Hadoop搭配起來使用是比較不錯的方案。

Flink大數據框架也是一種混合式的計算框架，Fink與Spark相反的地方在於Fink重點在於處理流式數據，目前Fink還不算成熟。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.