spark是什麼?spark和MapReduce的區別?spark爲什麼比hive速度快?

spark是什麼?

spark是針對於大規模數據處理的統一分析引擎,通俗點說就是基於內存計算的框架

spark和hive的區別?

1.spark的job輸出結果可保存在內存中,而MapReduce的job輸出結果只能保存在磁盤中,io讀取速度要比內存中慢;

2.spark以線程方式運行,MapReduce以進程的方式運行,進程要比線程耗費時間和資源;

3.spark提供了更爲豐富的算子操作;

4.spark提供了更容易的api,支持python,java,scala;

spark爲什麼比hive速度快?

1.spark底層不需要調用MapReduce,而hive底層調用的是MapReduce;

2.spark基於內存計算,而hive基於磁盤計算,內存的讀取速度遠超過磁盤讀取速度;

3.spark以線程方式進行運行,而hive以進程方式運行,一個進程中可以跑多個線程,進程要比線程耗費資源和時間;

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章