spark是什麼？spark和MapReduce的區別？spark爲什麼比hive速度快？

原創

Sunshine_wahaha

2018-10-27 05:57

spark是什麼？

spark是針對於大規模數據處理的統一分析引擎，通俗點說就是基於內存計算的框架

spark和hive的區別？

1.spark的job輸出結果可保存在內存中，而MapReduce的job輸出結果只能保存在磁盤中，io讀取速度要比內存中慢；

2.spark以線程方式運行，MapReduce以進程的方式運行，進程要比線程耗費時間和資源；

3.spark提供了更爲豐富的算子操作；

4.spark提供了更容易的api,支持python,java,scala;

spark爲什麼比hive速度快？

1.spark底層不需要調用MapReduce，而hive底層調用的是MapReduce；

2.spark基於內存計算，而hive基於磁盤計算，內存的讀取速度遠超過磁盤讀取速度；

3.spark以線程方式進行運行，而hive以進程方式運行，一個進程中可以跑多個線程，進程要比線程耗費資源和時間；

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【面經筆記】好未來 - 已掛

1、手寫二叉搜索樹的插入、刪除沒寫過，刪除操作完全寫錯了。 2、輸入流的頻率TOPk問題，引出堆的實現我先實現了算法導論中自頂向下的維護堆的函數MAX_HEAPIFY（）。面試官說不好，應該寫個自底向上的、、、、、、、、

xiaxzhou

2020-07-08 11:22:52

【面經筆記】主定理

遞歸式： T(n)=aT(n/b)+f(n) 含義：將規模n的問題分爲a個子問題，每個子問題的規模是n/b，其中a個子問題遞歸地進行求解，每個花費時間T（n/b）。函數f(n)包含了問題分解和子問題解合併的代價。

xiaxzhou

2020-07-08 11:22:52

【算法題】兩有序數組中位數

有兩個排序的數組，長度都爲n，求合併後的排序數組的中位數。要求時間複雜度爲log(n)。解法1：直接的解法是遍歷兩個數組並計數，類似歸併排序裏面的有序數組的合併，複雜度爲O（n）解法2：分治策略：設兩個數組爲A[n]，B

xiaxzhou

2020-07-08 11:22:52

面試準備之volatitle的理解

volatitle這個關鍵字可以說是面試中必會被問到的問題。面試官：請說說你對volatitle對是怎麼理解的？我：volatitle可以保證可見性和禁止指令重排序。可見性：當一個線程對變量作出修改操作後，其他線程對這個修改的結果是

wangbiao007

2020-07-08 09:19:19

strcpy(),memcpy(),memmove(),memset(),strcmp(),strstr()的實現

在C語言中strcpy的原型是char *strcpy(char *dest,const char *src)，它的的功能是把src所指由'\0'結束的字符串複製到dest所指的數組中，下面是實現 char *strcpy(char *

long504377009

2020-07-08 05:36:48

在一個字符串中刪除指定的字符 & 刪除字符串中所有出現在另一個字符數組中的字符

#include <stdio.h> #include <assert.h> #include <string.h> /*在一個字符串中刪除指定的字符,這種算法只用到原來的存儲空間，不用另闢空間*/ char* DeleteChar(c

long504377009

2020-07-08 05:36:48

遞歸：從尾到頭輸出鏈表& 從尾到頭輸出一個字符串 & 定義一個函數求字符串的長度，要求該函數體內不能聲明任何變量

本文轉自：http://zhedahht.blog.163.com/blog/static/2541117420079237185699/ 題目：輸入一個鏈表的頭結點，從尾到頭反過來輸出每個結點的值。鏈表結點定義如下： struct L

long504377009

2020-07-08 05:36:48

二維坦克大戰遊戲代碼開發

這是我實際面試中，遇到的一個題目，編寫一個坦克大戰遊戲。一開始感覺懵，後來代碼寫寫就好了。 #include<iostream> #include<stdlib.h> #include<graphics.h> #include<win

aFakeProgramer

2020-07-08 02:43:30

（C++）合併排序的數組

給定兩個排序後的數組 A 和 B，其中 A 的末端有足夠的緩衝空間容納 B. 編寫一個方法，將 B 合併入 A 並排序。初始化 A 和 B 的元素數量分別爲 m 和 n。 A = [1,2,3,0,0,0] .m = 6 B =

菜鸡亮亮

2020-07-08 01:05:42

（C++）兩數之和

給定一個整數數組 nums 和一個目標值 target，請你在該數組中找出和爲目標值的那兩個整數，並返回他們的數組下標。你可以假設每種輸入只會對應一個答案。但是，數組中同一個元素不能使用兩遍。方法一：暴力求解.(複雜度較高) 其

菜鸡亮亮

2020-07-08 01:05:42

LeetCode刷題記錄 Z字型變換

下面是我在LeetCode中看到的題目，然後自己寫的解決方法 /** * Z字型變化 * 原字符串“LEETCODEISHIRING” * after-> * L C I

w366549434

2020-07-08 00:22:29

LeetCode解題記錄之隊列最大值

題目: 請定義一個隊列並實現函數 max_value 得到隊列裏的最大值，要求函數max_value、push_back 和 pop_front 的均攤時間複雜度都是O(1)。若隊列爲空，pop_front 和 max_value 需要

w366549434

2020-07-08 00:22:27

如何設置高性能定時器

在工作中，我們經常會遇到定時任務的問題。一般思路：將每個任務保存到數組中，每過一個時間間隔（1秒），就檢測一下數組，看哪個任務達到了設定時間，如果到達了就取出任務執行，並刪除。其實這樣的定時器效率是很低的，爲什麼呢？往

经验之谈

2020-07-07 21:50:17

# 02｜面試題筆記系列

“本文大約有 2794 字。面試筆記系列的第 2 篇文章。 01｜面試題來源老虎二面 BIGO 一面 02｜概念題 1. C++ 的內存管理？在 C++ 中，內存分爲 5 個區：堆、棧、自由存儲區、全局/靜態存儲區和

蓝本本

2020-07-07 20:47:50

找出給定數組中兩個元素和剛好等於給定目標值的最小下標，時間複雜度要求O(n)

題目要求：找出給定數組中兩個元素和剛好等於給定目標值的最小下標，時間複雜度要求O(n) 例如：輸入數組 [5, 4, 6, 7, 8, 11], 目標值 19 返回 4，5；所有代碼均可在Github中找到：下載鏈接

杨鑫newlfe

2020-07-07 17:05:08

24小時熱門文章

python gdal 安裝使用（Windows， python 3.6.8）

spark是什麼？spark和MapReduce的區別？spark爲什麼比hive速度快？

python gdal 安裝使用（Windows， python 3.6.8）

spark是什麼？spark和MapReduce的區別？spark爲什麼比hive速度快？

map和reduce個數怎麼確定？

kafka整合sparkStreaming問題

spark中的常用算子區別（map、mapPartitions、foreach、foreachPartition）

Zookeeper集羣有什麼用？

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結