RDD轉換算子和行動算子的區別

textFile 既不是transformation 也不是 action 它是爲生成RDD前做準備

算子: 指的就是RDD上的方法。

spark中的算子分爲2類:

(1)轉換算子: transformation: 由RRD 調用方法 返回一個新的RDD (一直存在drive中因爲沒生成task)

​ 特點:

​ 生成新的rdd

​ lazy執行(不會立刻讀取數據記錄RDD之間的處理過程)

(2)行動算子: action:觸發讀取數據 , 執行運算的函數 不會返回新的RDD

​ 當觸發action時,纔會真正執行開始任務

​ 調用action算子之後,數據類型不再是RDD, 直接存儲到介質;打印結果(executor端);把數據收集到Driver端

​ 最大的單位,Application

​ 當有action算子的時候,產生job。

​ 默認情況下,一個action,一個job。

觸發action就生成job

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章