IMF前期知識儲備-What is Spark詳細講解（四大特性）

原創

2019-09-30 14:22

Spark 官方網站使用如下簡潔的語言描述了Spark

我們可以從中提取出如下信息：

Spark是一個引擎

Spark可以用來處理數據

Spark本身並不提供數據存儲能力，它只是一個計算框架

它的快速體現在什麼地方呢？

如果處理的數據在內存中，運行MapReduce比hadoop要快100倍以上，要是數據在磁盤中，也比Hadoop快10倍以上。

爲什麼會快呢，Spark在處理數據的時候，使用了一個高級的執行引擎：DAG - 有向無環圖。以及內存計算。

易於使用：

可以使用scala、java、Python等語言快速的開發應用程序。Spark提供了超過80個操作來簡單的構建並行應用。只需幾行代碼，就可以完成wordcount的計算。

通用性：

Spark 提供了大數據一棧式解決方案。包含了流計算、圖計算、機器學習、SQL等。

對於開發、維護、學習成本都是大大的降低。

運行在任何地方：

Spark可以運行在Hadoop的YARN、Mesos, standalone,或者運行在雲上。

Spark 處理的數據，可以存儲在HDFS, Cassandra, HBase,和S3等等。

Spark的發展非常快速，TimeLine如下

Spark進入Apache後，發展非常迅速。版本發佈比較頻繁。

Spark的生態體系(BDAS，中文：伯克利分析棧)

BDAS生態體系圖：

MapReduce和Spark比較

異同點：

2. 模型上

3. 容錯性

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.