Spark中RDD阶段划分

原創

会飞的猪仔

2024-02-22 13:46

分析源码步骤：

第一步程序入口：

第二步一直查看runjob方法，可以看出collect()是RDD行动算子，与Job运行提交相关

rdd.scala

sparkcontext.scala

sparkcontext.scala

sparkcontext.scala

第三步runJob()与DAG调度有关

sparkcontext.scala

第四步runJob()核心代码 - -查看其中提交作业submitJob()的代码

DAGScheduler.scala

第五步：搜索handleJobSubmitted，handleJobSubmitted中createResultStage()方法会创建ResultStage，即为最后一个阶段finalStage。补充：每一个行动算子都会调用runJob()，最后会new ActiveJob

DAGScheduler.scala

DAGScheduler.scala

DAGScheduler.scala

第六步createResultStage()方法中，先调用getOrCreateParentStages()，获得或创建父阶段，因为只有父阶段先执行完，才会执行当前的阶段。然后再创建ResultStage

DAGScheduler.scala

第七步：核心代码：进入getOrCreateParentStages()，调用getShuffleDependencies()返回值是HashSet，存放是的依赖关系，再对每一个shuffleDep，调用getOrCreateShuffleMapStage()创建shuffle阶段。即一个shuffle依赖就会创建一个shuffle阶段

DAGScheduler.scala

DAGScheduler.scala中 getShuffleDependencies此方法是获取依赖关系

第八步：进入getOrCreateShuffleMapStage()，调用createShuffleMapStage()，创建shuffle阶段new ShuffleMapStage

DAGScheduler.scala

DAGScheduler.scala

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

U-Net学习与进阶

1. Res-U-Net https://www.cnblogs.com/alex-bn-lee/p/15224922.html https://blog.csdn.net/BluErroR/article/details/134621

太一吾魚水

2024-05-15 13:44:41

交互式变化检测工具

不知不覺又過了很久了，近期看到一個不太好的消息，就是南京林業大學有一個青椒叫做宋凱，因爲考覈未通過自殺，先不論抑鬱症等各種客觀因素，我個人的看法是這個特色的非升即走制度是有非常大的問題的。好了，先不扯了，希望大家搞學術的同時，

我愛木葉123qq

2024-05-15 13:44:31

OpenTelemetry agent 对 Spring Boot 应用的影响：一次 SPI 失效的

背景前段時間公司領導讓我排查一個關於在 JDK21 環境中使用 Spring Boot 配合一個 JDK18 新增的一個 SPI(java.net.spi.InetAddressResolverProvider) 不生效的問題。但這個不

2024-05-15 13:42:11

聊天富文本插件，一个基于react的富文本插件

fish-bubble-chat-editor 完美的插入表情，插入文本等操作

2024-05-15 13:39:21

dotnet X11 窗口之间发送鼠标消息模拟鼠标输入

本文記錄我閱讀 Avalonia 代碼過程中所學習到的在 X11 的窗口之間發送鼠標消息，可以跨進程給其他進程的窗口發送鼠標消息，通過此方式可以實現模擬鼠標輸入直接使用 XSendEvent 給指定窗口發送消息即可，如以下示例代碼

2024-05-15 13:38:50

dotnet 后台线程发送 X11 窗口消息

本文將告訴大家如何在 dotnet 裏面的後臺線程向自己進程內的窗口發送消息核心是通過 XSendEvent 發送消息，發送消息想要有反應需要另開 XOpenDisplay 獲取 display 對象，最後再將其關閉才能發送出去核心代碼

2024-05-15 13:38:50

dotnet 后台线程设置 X11 窗口最小化

本文將告訴大家如何在 dotnet 裏面的後臺線程設置 X11 窗口的最小化核心設置 X11 窗口最小化的方法是 XIconifyWindow 方法，核心問題是在後臺線程需要自己使用 XOpenDisplay 獲取 Display 對象，

2024-05-15 13:38:50

dotnet 如何从 Gtk 3 的窗口到对应的 X11 窗口

本文將告訴大家如何在 Gtk3 的 Gtk.Window 或 Gdk.Window 裏面獲取到對應的 X11 窗口 XID 號記錄本文是因爲我在這裏踩了很多坑，核心問題就是 GTK 有很多個版本，我開始找的全是使用 GTK 2 的 gdk

2024-05-15 13:38:50

文科生在三本院校，读计算机专业

6歲，進入村小，一年級，老師問我的夢想是什麼，我說我長大了我要成爲科學家。 9歲，三年級，知道科學家不現實，開始學習英語。又因爲科學家英語不好發音，於是我的夢想變了，長大了我要成爲經理。 11歲，五年級，開始成爲網癮少年，邊玩遊戲邊掙錢纔是

2024-05-15 13:31:29

[转帖]国产数据库中统计信息自动更新机制

https://blog.csdn.net/solihawk/article/details/137064277 數據庫中統計信息描述的數據庫中表和索引的大小數以及數據分佈狀況，統計信息的準確性對優化器選擇執行計劃時具有重要的參

濟南小老虎

2024-05-15 13:29:29

[转帖]Get started with JDK Flight Recorder in OpenJDK 8u

https://developers.redhat.com/blog/2020/08/25/get-started-with-jdk-flight-recorder-in-openjdk-8u# Table of

濟南小老虎

2024-05-15 13:29:29

打包文件以及启动java程序对Linux内存挤压情况的研究

打包文件以及啓動java程序對Linux內存擠壓情況的研究 TLDR 先說一下簡單結論 java 啓動. tar包打包都會佔用緩存並且這個緩存不是算到對應的進程pid裏面算到的是內核層的緩存文件裏面如果內核不是很快速的釋放緩存

濟南小老虎

2024-05-15 13:29:29

图扑智慧农业——生态鱼塘数字孪生监控

智慧農業園作爲新型農業經營模式，正在以其高效、環保、可持續的特點受到廣泛關注。智慧魚塘作爲智慧農業中一項關鍵技術，結合物聯網、人工智能、雲計算等技術，實現對新型養殖模式的實時監控、優化與管理。效果展示圖撲軟件應用自研 HT for We

2024-05-15 13:28:58

.NET周刊【5月第2期 2024-05-12】

國內文章 C#在工業數字孿生中的開發路線實踐 https://mp.weixin.qq.com/s/b_Pjt2oii0Xa_sZp_9wYWg 這篇文章探討了C#在工業數字孿生技術中的應用，介紹了三種基於C#的數字孿生系統實現方案： W

2024-05-15 13:27:58

C#异步Task

目錄C#異步Task概述異步是什麼？爲什麼需要異步？基本語法1. Task創建執行2. Task異步方法3. 取消異步執行CancellationTokenSource4.Task並行數量控制LimitedConcurrencyLevelT

2024-05-15 13:20:17

24小時熱門文章

最新文章

最新評論文章