spark內核架構
schulebackend
acuter
driver:(application=driver+executor)standalone是spark自帶的,效率比其他的好,一個計算框架就可以了、yarn
SparkContext創建的時候要有高層調度器、底層調度器、schulebackend,向master註冊程序,job stage taskschuler
executer.
driver:部分的代碼在application中是sparkconf+sparkContext
textFileflatmap map:具體的業務實現,RDD操作,併產生RDD的過程
DriverProgram(sparkContext)->cluster Manager()->worker node:executor(task)+ cache(task)
sparkcontext的運行不依賴於clusterManager
mesos->yarn->standalone
woker:管理當前node的計算資源,並接受master的指令來分配具體的計算資源executor(在新的進程中分配)executorRunner代理模式
job:包含了一系列的task
調度、容錯
依賴構成DAG
stage內部計算邏輯完全一樣,只是計算的數據不同!!!!
一個partition大小不一定是128M,有可能跨記錄。
一個application中可以有多個job,一般一個action操作就會對應一個job,checkpoint也會導致job,排序rang的時候也會觸發job。