RDD任務切分中間分爲:Application、Job、Stage和Task。Application->Job->Stage-> Task每一層都是1對n的關係。
1)Application:初始化一個SparkContext即生成一個Application一般一個spark程序就是一個任務。
2)Job:一個Action算子就會生成一個Job,一個spark程序會有多個行動Action算子,所以一個Application會對應多個任務。
3)Stage:根據RDD之間的依賴關係的不同將Job劃分成不同的Stage,遇到一個寬依賴則劃分一個Stage。
4)Task:Stage是一個TaskSet,將Stage劃分的結果發送到不同的Executor執行即爲一個Task。
RDD的任務劃分
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
企業大模型如何成爲自己數據的“百科全書”?
原創
2024-05-15 21:22:50
Sql Server數據庫sql語句去除所有空格
原創
2024-05-08 23:32:56
Apache DolphinScheduler 4月簡報:社區發展與技術革新速遞
原創
2024-05-08 21:19:32
利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫
原創
2024-04-25 21:18:23
對接HiveMetaStore,擁抱開源大數據
原創
2024-04-24 22:33:08
【案例+PPT】普元信息臧一超:海量數據下“流批一體”的數據平臺演進路線
原創
2024-04-23 11:43:51
入職3年-我如何做一名AI產品經理
原創
2024-04-22 11:16:31
WhaleScheduler爲銀行業全信創環境打造統一調度管理平臺解決方案
原創
2024-04-19 21:18:25
用戶行爲分析模型實踐(四)—— 留存分析模型
原創
2024-04-19 11:26:00
解密數倉的SQL ON ANYWHERE技術
原創
2024-04-03 10:32:41
海豚調度任務類型Apache SeaTunnel部署指南
原創
2024-04-02 21:18:16
探索GaussDB(DWS)湖倉融合:Hudi與元數據打通的深度解析
原創
2024-04-01 22:33:07
hive 、spark 、flink之想一想
原創
2024-03-27 01:22:41