spark中的常用算子區別(map、mapPartitions、foreach、foreachPartition)

  • map:用於遍歷RDD,將函數f應用於每一個元素,返回新的RDD(transformation算子)。

  • foreach:用於遍歷RDD,將函數f應用於每一個元素,無返回值(action算子)。

  • mapPartitions:用於遍歷操作RDD中的每一個分區,返回生成一個新的RDD(transformation算子)。

  • foreachPartition: 用於遍歷操作RDD中的每一個分區。無返回值(action算子)。

  • 總結:一般使用mapPartitions或者foreachPartition算子比map和foreach更加高效,推薦使用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章