Spark

One stack to rule them all 可以在一套軟件棧內完成各種大數據分析任務
這裏寫圖片描述
Ad hoc queries(即席查詢)
即席查詢(Ad Hoc)是用戶根據自己的需求,靈活的選擇查詢條件,系統能夠根據用戶的選擇生成相應的統計報表。即席查詢與普通應用查詢最大的不同是普通的應用查詢是定製開發的,而即席查詢是由用戶自定義查詢條件的。
Batch Processing 批處理器
Steam Processing 流處理器
分佈式、多臺機器、並行化、內存、迭代式(shuffle)
這裏寫圖片描述
這裏寫圖片描述
處理數據來源HDFS、HBase、Hive9計算引擎、存儲引擎)、DB
SparkSQL取代的是Hive中的計算引擎
這裏寫圖片描述
彈性之一:自動的進行內存和磁盤數據存儲的切換
彈性之二:基於Lineage高效容錯(血統繼承關係)
彈性之三:task如果失敗,會自動進行特定次數的重試
彈性之四:Stage如果失敗,會自動進行特定次數的重試,只會計算失敗的切片

緩存:計算步驟特別耗時,計算鏈條已經很長,Shuffle之後,checkpoint之前。

發佈了36 篇原創文章 · 獲贊 7 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章