1. Spark與Hadoop
2. MapReduce的基本計算過程
與之相對比的是Spark往往在一個內存的物理節點完成計算(主要用內存,Shuffle的時候也用到磁盤)。很多操作,比如說單純的map操作,沒有reduce操作;或者Filter類的操作,都可以基於內存進行計算。
MR的計算模型相比較,非常固定,而且死板。必須基於磁盤,以及大量的網絡傳輸。
所以,spark的速度比MR、Hive(底層也是基於MR來執行SQL語句)快數十倍,甚至上百倍。
3. Spark整體架構
與之相對比的是Spark往往在一個內存的物理節點完成計算(主要用內存,Shuffle的時候也用到磁盤)。很多操作,比如說單純的map操作,沒有reduce操作;或者Filter類的操作,都可以基於內存進行計算。
MR的計算模型相比較,非常固定,而且死板。必須基於磁盤,以及大量的網絡傳輸。
所以,spark的速度比MR、Hive(底層也是基於MR來執行SQL語句)快數十倍,甚至上百倍。