textFile 既不是transformation 也不是 action 它是爲生成RDD前做準備
算子: 指的就是RDD上的方法。
spark中的算子分爲2類:
(1)轉換算子: transformation: 由RRD 調用方法 返回一個新的RDD (一直存在drive中因爲沒生成task)
特點:
生成新的rdd
lazy執行(不會立刻讀取數據記錄RDD之間的處理過程)
(2)行動算子: action:觸發讀取數據 , 執行運算的函數 不會返回新的RDD
當觸發action時,纔會真正執行開始任務
調用action算子之後,數據類型不再是RDD, 直接存儲到介質;打印結果(executor端);把數據收集到Driver端
最大的單位,Application
當有action算子的時候,產生job。
默認情況下,一個action,一個job。
觸發action就生成job