Application |
用戶在spark上的程序,由一個driver程序和數個executor組成 |
Application jar |
包含用戶Spark應用程序的jar包 |
Driver program |
運行main函數並且創建SparkContext的程序 |
Cluster manager |
集羣的資源管理器,可以獲取集羣中資源的外部服務 |
Deploy mode |
driver的部署運行模式,分”cluster”和”client”兩種模式。在”cluster”模式下,框架會在集羣中的任意一臺機器上啓動driver;在”client”模式下,dirver會在集羣外被提交者啓動。 |
Worker node |
集羣中任何一個可以運行spark應用代碼的節點。Worker Node就是物理節點,可以在上面啓動Executor進程。 |
Executor |
應用在worker節點上啓動的進程,運行任務,並將數據保存在內存或者磁盤上。每個應用都有各自獨立的executor。 |
Task |
被髮送到executor上的工作單元。 |
Job |
包含很多個task的並行計算,可以認爲是Spark RDD中的action,每個action的計算會生成一個job。 |
Stage |
每個job會被拆分成多組task,每組task被稱爲stages(類似MR中的map stage 和 reduce stage)。 |