通過可視化來了解你的Spark應用程序

原創

2020-02-21 10:53

【編者按】在"Spark 1.4：SparkR發佈，鎢絲計劃鋒芒初露"一文中，我們有簡單地介紹了1.4版本給Spark注入的新特性，在各個組件的介紹中也提到了新UI給用戶帶來的便捷。而從本文開始，我們將通過Databricks Blog上的系列文章深入瞭解新版本中的數據可視化，首先分享的是這個系列的第一篇博文——Understanding your Spark application through visualization，作者 Andrew Or。

以下爲譯文

圖片最大的價值就是它可以讓我們發現未曾預期的事情——John Tukey。

在過去，Spark UI一直是用戶應用程序調試的幫手。而在最新版本的Spark 1.4中，我們很高興地宣佈，一個新的因素被注入到Spark UI——數據可視化。在此版本中，可視化帶來的提升主要包括三個部分：

Spark events時間軸視圖
Execution DAG
Spark Streaming統計數字可視化

我們會通過一個系列的兩篇博文來介紹上述特性，本次則主要分享前兩個部分——Spark events時間軸視圖和Execution DAG。Spark Streaming統計數字可視化將在下一篇博文中解釋。

Spark events時間軸視圖

從Spark 初期版本至今，Spark events一直是面向用戶API的一部分。在最新的1.4版本，Spark UI將會把這些events在一個時間軸中顯示，讓用戶可以一眼區別相對和交叉順序。

時間軸視圖可以覆蓋3個等級：所有Job，指定的某個Job，以及指定的某個stage。在下圖中，時間軸顯示了橫跨一個應用程序所有作業中的Spark events。

這裏的events順序相對簡單，在所有 executors 註冊後，在應用程序並行運行的4個job中，有一個失敗，其餘成功。當所有工作完成，並在應用程序退出後，executors同樣被移除。下面不妨點擊關注其中的一個job：

該job在3個文件中做word count，最後join並輸出結果。從時間軸上看，很明顯， 3個 word count stages 並行運行，因爲它們不互相依賴。同時，最後一個階段需要依賴前3個文件word count的結果，所以相應階段一直等到所有先行階段完成後纔開始。下面着眼單個stage：

這個stage被切分爲20個partitions，分別在4臺主機上完成（圖片並沒有完全顯示）。每段代表了這個階段的一個單一任務。從這個時間軸來看，我們可以得到這個stage上的幾點信息。

首先，partitions在機器中的分佈狀態比較樂觀。其次，大部分的任務執行時間分配在原始的計算上，而不是網絡或I/ O開銷。這並不奇怪，因爲傳輸的數據很少。最後，我們可以通過給executors分配更多的核心來提升並行度；從目前來看，每個executors可以同時執行不超過兩個任務。

藉此機會展示一下Spark通過該時間軸獲得的另一個特性——動態分配。該特性允許Spark基於工作負載來動態地衡量executors 的數量，從而讓集羣資源更有效地共享。不妨看向下張圖表：

首先要注意的是，這個應用程序是在工作的過程中獲得executors ，而不是預先分配好。在第一個job結束後，用於該job的executors將閒置並返回到集羣。因此在這個期間，同集羣中運行的其他應用程序可以獲得這些資源，從而增加集羣資源利用率。只有當一個新的job執行時，Spark應用程序纔會獲取一組新的executors 來運行它。

在一個時間軸中查看Spark events的能力有助於確定應用程序瓶頸，從而在調試過程中進行更有針對性的優化。