1. Spark與Hadoop

2. MapReduce的基本計算過程

與之相對比的是Spark往往在一個內存的物理節點完成計算（主要用內存，Shuffle的時候也用到磁盤）。很多操作，比如說單純的map操作，沒有reduce操作；或者Filter類的操作，都可以基於內存進行計算。

MR的計算模型相比較，非常固定，而且死板。必須基於磁盤，以及大量的網絡傳輸。

所以，spark的速度比MR、Hive(底層也是基於MR來執行SQL語句)快數十倍，甚至上百倍。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.