Spark和Hadoop的關係

直到現在BAT等一些互聯網公司對大數據炒得很火,但很多人並不知道Spark和Hadoop的關係。很大一部分人說Spark會取代Hadoop,當然也有一部分人對其持反對意見。那到底會不會呢?下面我們先分別對Spark和Hadoop進行結構化的分析,然後通過對比分析得出分析。

Hadoop主要提供的是:

HDFS:分佈式存儲系統。(Hadoop提供的最重要的東西----靈魂)

MR:大數據分佈式計算框架。

Hive:大數據查詢框架,其中也包含了數據倉庫。

HBase:Hadoop的數據庫,主要提供實時的查詢。底層高可靠性存儲支持依然爲HDFS;MR爲其提供高性能計算;Sqoop爲其提供傳統數據的數據導入導出                                                   的功能Pig和Hive還爲HBase提供了高層語言支持等

Yran:提供集羣資源的管理和調度。

Spark主要提供的是:

SparkSQL:應用Hive的數據倉庫和HDFS。

  Core:大數據計算框架,效率高於MR。

  GraphX:圖計算

  R:數據分析

 ML:機器學習

 Streaming:流處理

總結:在Hadoop中除了Yarn、Hbase、HDFS其他都可由Spark替代,但是Spark必須使用HDFS。所以兩者不存在誰替換誰,而是相互的依賴,使計算的性能最大化。

注意:本人如有錯誤,請指教謝謝。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章