spark是什麼?
spark是針對於大規模數據處理的統一分析引擎,通俗點說就是基於內存計算的框架
spark和hive的區別?
1.spark的job輸出結果可保存在內存中,而MapReduce的job輸出結果只能保存在磁盤中,io讀取速度要比內存中慢;
2.spark以線程方式運行,MapReduce以進程的方式運行,進程要比線程耗費時間和資源;
3.spark提供了更爲豐富的算子操作;
4.spark提供了更容易的api,支持python,java,scala;
spark爲什麼比hive速度快?
1.spark底層不需要調用MapReduce,而hive底層調用的是MapReduce;
2.spark基於內存計算,而hive基於磁盤計算,內存的讀取速度遠超過磁盤讀取速度;
3.spark以線程方式進行運行,而hive以進程方式運行,一個進程中可以跑多個線程,進程要比線程耗費資源和時間;