Spark和Hadoop的關係

直到現在BAT等一些互聯網公司對大數據炒得很火，但很多人並不知道Spark和Hadoop的關係。很大一部分人說Spark會取代Hadoop，當然也有一部分人對其持反對意見。那到底會不會呢？下面我們先分別對Spark和Hadoop進行結構化的分析，然後通過對比分析得出分析。

Hadoop主要提供的是：

HDFS：分佈式存儲系統。（Hadoop提供的最重要的東西----靈魂）

MR：大數據分佈式計算框架。

Hive：大數據查詢框架，其中也包含了數據倉庫。

HBase：Hadoop的數據庫，主要提供實時的查詢。底層高可靠性存儲支持依然爲HDFS；MR爲其提供高性能計算；Sqoop爲其提供傳統數據的數據導入導出的功能；Pig和Hive還爲HBase提供了高層語言支持等

Yran：提供集羣資源的管理和調度。

Spark主要提供的是：

SparkSQL：應用Hive的數據倉庫和HDFS。

Core：大數據計算框架，效率高於MR。

GraphX：圖計算

R：數據分析

ML：機器學習

Streaming：流處理

總結：在Hadoop中除了Yarn、Hbase、HDFS其他都可由Spark替代，但是Spark必須使用HDFS。所以兩者不存在誰替換誰，而是相互的依賴，使計算的性能最大化。

注意：本人如有錯誤，請指教謝謝。