spark內核解密

spark內核架構

schulebackend

acuter

driver:(application=driver+executor)standalone是spark自帶的,效率比其他的好,一個計算框架就可以了、yarn

SparkContext創建的時候要有高層調度器、底層調度器、schulebackend,向master註冊程序,job stage taskschuler

executer.

driver:部分的代碼在application中是sparkconf+sparkContext

textFileflatmap map:具體的業務實現,RDD操作,併產生RDD的過程

DriverProgram(sparkContext)->cluster Manager()->worker nodeexecutortask+ cachetask

sparkcontext的運行不依賴於clusterManager

mesos->yarn->standalone

woker:管理當前node的計算資源,並接受master的指令來分配具體的計算資源executor(在新的進程中分配)executorRunner代理模式

job:包含了一系列的task

調度、容錯

依賴構成DAG

stage內部計算邏輯完全一樣,只是計算的數據不同!!!!

一個partition大小不一定是128M,有可能跨記錄。

一個application中可以有多個job,一般一個action操作就會對應一個jobcheckpoint也會導致job,排序rang的時候也會觸發job


 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章