mapreduce和spark的原理及區別

原創

2019-09-30 13:56

Mapreduce和spark是數據處理層兩大核心，瞭解和學習大數據必須要重點掌握的環節，根據自己的經驗和大家做一下知識的分享。

首先了解一下Mapreduce，它最本質的兩個過程就是Map和Reduce，Map的應用在於我們需要數據一對一的元素的映射轉換，比如說進行截取，進行過濾，或者任何的轉換操作，這些一對一的元素轉換就稱作是Map；Reduce主要就是元素的聚合，就是多個元素對一個元素的聚合，比如求Sum等，這就是Reduce。

Mapreduce是Hadoop1.0的核心，Spark出現慢慢替代Mapreduce。那麼爲什麼Mapreduce還在被使用呢？因爲有很多現有的應用還依賴於它，它不是一個獨立的存在，已經成爲其他生態不可替代的部分，比如pig，hive等。

儘管MapReduce極大的簡化了大數據分析，但是隨着大數據需求和使用模式的擴大，用戶的需求也越來越多：

1. 更復雜的多重處理需求（比如迭代計算, ML, Graph）；

2. 低延遲的交互式查詢需求（比如ad-hoc query）

而MapReduce計算模型的架構導致上述兩類應用先天緩慢，用戶迫切需要一種更快的計算模型，來補充MapReduce的先天不足。

Spark的出現就彌補了這些不足，我們來了解一些Spark的優勢：

1.每一個作業獨立調度，可以把所有的作業做一個圖進行調度，各個作業之間相互依賴，在調度過程中一起調度，速度快。

2.所有過程都基於內存，所以通常也將Spark稱作是基於內存的迭代式運算框架。

3.spark提供了更豐富的算子，讓操作更方便。

4.更容易的API：支持Python，Scala和Java

其實spark裏面也可以實現Mapreduce，但是這裏它並不是算法，只是提供了map階段和reduce階段，但是在兩個階段提供了很多算法。如Map階段的map, flatMap, filter, keyBy，Reduce階段的reduceByKey, sortByKey, mean, gourpBy, sort等。

以上就是和大家做的一個知識分享，只是個人的一些見解，對於具體概念的知識方面大家可以私下裏去學習一下，有時間也可以去關注一下“大數據cn”和“大數據時代學習中心”這些微信公衆服務號，裏面介紹的一些大數據發展趨勢，大數據知識以及分享的一些資料，都挺不錯的，建議關注看看，期望大家都可以有所進步！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

mapreduce和spark的原理及區別

Hadoop項目規劃：硬件

大數據學習一般都學什麼

初識Apache Hadoop

大數據學習的流程方案

數據分析：Hive、Pig和Impala

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結