Spark深入解析（十八）：SparkCore之擴展之RDD相關概念關係

RDD相關概念關係

輸入可能以多個文件的形式存儲在HDFS上，每個File都包含了很多塊，稱爲Block。當Spark讀取這些文件作爲輸入時，會根據具體數據格式對應的InputFormat進行解析，一般是將若干個Block合併成一個輸入分片，稱爲InputSplit，注意InputSplit不能跨越文件。隨後將爲這些輸入分片生成具體的Task。InputSplit與Task是一一對應的關係。隨後這些具體的Task每個都會被分配到集羣上的某個節點的某個Executor去執行。

1)每個節點可以起一個或多個Executor。
2)每個Executor由若干core組成，每個Executor的每個core一次只能執行一個Task。
3)每個Task執行的結果就是生成了目標RDD的一個partiton。

注意: 這裏的core是虛擬的core而不是機器的物理CPU核，可以理解爲就是Executor的一個工作線程。而 Task被執行的併發度 = Executor數目 * 每個Executor核數。至於partition的數目：

1)對於數據讀入階段，例如sc.textFile，輸入文件被劃分爲多少InputSplit就會需要多少初始Task。
2)在Map階段partition數目保持不變。
3)在Reduce階段，RDD的聚合會觸發shuffle操作，聚合後的RDD的partition數目跟具體操作有關，例如repartition操作會聚合成指定分區數，還有一些算子是可配置的。

RDD在計算的時候，每個分區都會起一個task，所以rdd的分區數目決定了總的的task數目。申請的計算節點（Executor）數目和每個計算節點核數，決定了你同一時刻可以並行執行的task。

比如的RDD有100個分區，那麼計算的時候就會生成100個task，你的資源配置爲10個計算節點，每個兩2個核，同一時刻可以並行的task數目爲20，計算這個RDD就需要5個輪次。如果計算資源不變，你有101個task的話，就需要6個輪次，在最後一輪中，只有一個task在執行，其餘核都在空轉。如果資源不變，你的RDD只有2個分區，那麼同一時刻只有2個task運行，其餘18個核空轉，造成資源浪費。這就是在spark調優中，增大RDD分區數目，增大任務並行度的做法。

後續會更新Spark面試題，博友可以先關注哦！！！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark深入解析（十八）：SparkCore之擴展之RDD相關概念關係

目錄

RDD相關概念關係

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

Spark深入解析（十九）：SparkSQL之Spark SQL概述

Spark深入解析（十七）：SparkCore之RDD編程進階

Spark深入解析（十八）：SparkCore之擴展之RDD相關概念關係

Spark深入解析：博文大綱

Spark深入解析（十五）：鍵值對RDD數據分區器

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結