DAGScheduler之Job的提交劃分Stage

整體流程圖

源碼分析 spark 2.3

getOrCreateParentStages 創建所有祖先Stage

/**
   * Get or create the list of parent stages for a given RDD.  The new Stages will be created with
   * the provided firstJobId.
   */
  private def getOrCreateParentStages(rdd: RDD[_], firstJobId: Int): List[Stage] = {
    // getShuffleDependencies 獲取RDD的第一層直接寬依賴
    getShuffleDependencies(rdd).map { shuffleDep =>
      //getOrCreateShuffleMapStage 創建rdd對應的所有祖先Stage
      getOrCreateShuffleMapStage(shuffleDep, firstJobId)
    }.toList
  }

getShuffleDependencies 獲取RDD的第一層直接寬依賴

  /**
   * Returns shuffle dependencies that are immediate parents of the given RDD.
   *
   * This function will not return more distant ancestors.  For example, if C has a shuffle
   * dependency on B which has a shuffle dependency on A:
   *
   * A <-- B <-- C
   *
   * calling this function with rdd C will only return the B <-- C dependency.
   *
   * This function is scheduler-visible for the purpose of unit testing.
   */
  private[scheduler] def getShuffleDependencies(
      rdd: RDD[_]): HashSet[ShuffleDependency[_, _, _]] = {
    val parents = new HashSet[ShuffleDependency[_, _, _]]
    val visited = new HashSet[RDD[_]]
    val waitingForVisit = new ArrayStack[RDD[_]]
    waitingForVisit.push(rdd)
    while (waitingForVisit.nonEmpty) {
      val toVisit = waitingForVisit.pop()
      if (!visited(toVisit)) {
        visited += toVisit
        toVisit.dependencies.foreach {
          // 返回 所有的第一層寬依賴
          case shuffleDep: ShuffleDependency[_, _, _] =>
            parents += shuffleDep
          case dependency =>
            waitingForVisit.push(dependency.rdd)
        }
      }
    }
    parents
  }

getOrCreateShuffleMapStage 創建rdd對應的所有祖先Stage

/**
   * Gets a shuffle map stage if one exists in shuffleIdToMapStage. Otherwise, if the
   * shuffle map stage doesn't already exist, this method will create the shuffle map stage in
   * addition to any missing ancestor shuffle map stages.
   */
  private def getOrCreateShuffleMapStage(
      shuffleDep: ShuffleDependency[_, _, _],
      firstJobId: Int): ShuffleMapStage = {
    shuffleIdToMapStage.get(shuffleDep.shuffleId) match {
      case Some(stage) =>
        stage

      case None =>
        // Create stages for all missing ancestor shuffle dependencies.
        // 深度遍歷獲取所有祖先寬依賴，按照祖先->子輩的順序 處理寬依賴
        getMissingAncestorShuffleDependencies(shuffleDep.rdd).foreach { dep =>
          // Even though getMissingAncestorShuffleDependencies only returns shuffle dependencies
          // that were not already in shuffleIdToMapStage, it's possible that by the time we
          // get to a particular dependency in the foreach loop, it's been added to
          // shuffleIdToMapStage by the stage creation process for an earlier dependency. See
          // SPARK-13902 for more information.
          if (!shuffleIdToMapStage.contains(dep.shuffleId)) {
            // 創建寬依賴
            createShuffleMapStage(dep, firstJobId)
          }
        }
        // Finally, create a stage for the given shuffle dependency.
        createShuffleMapStage(shuffleDep, firstJobId)
    }
  }

getMissingAncestorShuffleDependencies `深度遍歷`獲取所有祖先寬依賴

/** Find ancestor shuffle dependencies that are not registered in shuffleToMapStage yet */
  private def getMissingAncestorShuffleDependencies(
      rdd: RDD[_]): ArrayStack[ShuffleDependency[_, _, _]] = {
    val ancestors = new ArrayStack[ShuffleDependency[_, _, _]]
    val visited = new HashSet[RDD[_]]
    // We are manually maintaining a stack here to prevent StackOverflowError
    // caused by recursively visiting
    val waitingForVisit = new ArrayStack[RDD[_]]
    waitingForVisit.push(rdd)
    while (waitingForVisit.nonEmpty) {
      val toVisit = waitingForVisit.pop()
      if (!visited(toVisit)) {
        visited += toVisit
        getShuffleDependencies(toVisit).foreach { shuffleDep =>
          if (!shuffleIdToMapStage.contains(shuffleDep.shuffleId)) {
           // 子輩寬依賴先壓棧
            ancestors.push(shuffleDep)
            waitingForVisit.push(shuffleDep.rdd)
          } // Otherwise, the dependency and its ancestors have already been registered.
        }
      }
    }
    // 返回寬依賴 堆棧
    ancestors
  }

DAGScheduler之Job的提交劃分Stage

整體流程圖

源碼分析 spark 2.3

getOrCreateParentStages 創建所有祖先Stage

getShuffleDependencies 獲取RDD的第一層直接寬依賴

getOrCreateShuffleMapStage 創建rdd對應的所有祖先Stage

getMissingAncestorShuffleDependencies `深度遍歷`獲取所有祖先寬依賴

例子

RDDs原始依賴圖

getShuffleDependencies

getMissingAncestorShuffleDependencies

最後劃分結果

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

YARN-ApplicationMaster啓動流程

YARN-Container申請和分配

HIVE Map和Reduce數量優化點

數據資產管理-簡單總結

HIVE - UDTF開發（指定分割符分割字符串，返回對應的大小寫字符串）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

DAGScheduler之Job的提交劃分Stage

整體流程圖

源碼分析 spark 2.3

getOrCreateParentStages 創建所有祖先Stage

getShuffleDependencies 獲取RDD的第一層直接寬依賴

getOrCreateShuffleMapStage 創建rdd對應的所有祖先Stage

getMissingAncestorShuffleDependencies 深度遍歷獲取所有祖先寬依賴

例子

RDDs原始依賴圖

getShuffleDependencies

getMissingAncestorShuffleDependencies

最後劃分結果

getMissingAncestorShuffleDependencies `深度遍歷`獲取所有祖先寬依賴