[scala-spark]1. Spark vs Hadoop 及 基礎

1. Spark與Hadoop

2. MapReduce的基本計算過程

與之相對比的是Spark往往在一個內存的物理節點完成計算(主要用內存,Shuffle的時候也用到磁盤)。很多操作,比如說單純的map操作,沒有reduce操作;或者Filter類的操作,都可以基於內存進行計算。

MR的計算模型相比較,非常固定,而且死板。必須基於磁盤,以及大量的網絡傳輸。

所以,spark的速度比MR、Hive(底層也是基於MR來執行SQL語句)快數十倍,甚至上百倍。

3. Spark整體架構

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章