mapPartition與map函數

原創

會飛的豬仔

2024-02-20 13:46

dd的mapPartitions是map的一個變種，它們都可進行分區的並行處理。
兩者的主要區別是調用的粒度不一樣：map的輸入變換函數是應用於RDD中每個元素，而mapPartitions的輸入函數是應用於每個分區。
Map 算子是分區內一個數據一個數據的執行，類似於串行操作。而 mapPartitions 算子是以分區爲單位進行批處理操作。
假設一個rdd有10個元素，分成3個分區。如果使用map方法，map中的輸入函數會被調用10次；而使用mapPartitions方法的話，其輸入函數會只會被調用3次，每個分區調用1次。
從功能上講：Map 算子主要目的將數據源中的數據進行轉換和改變。但是不會減少或增多數據。MapPartitions 算子需要傳遞一個迭代器，返回一個迭代器，沒有要求的元素的個數保持不變，所以可以增加或減少數據。

從性能上講：Map 算子因爲類似於串行操作，所以性能比較低，而是 mapPartitions 算子類似於批處理，所以性能較高。但是 mapPartitions算子會長時間佔用內存，那麼這樣會導致內存可能不夠用，出現內存溢出的錯誤。所以在內存有限的情況下，不推薦使用。使用 map 操作。

例：可以求每個分區的最大值，亦或是在連接數據庫操作時，可以以爲分區單位進行操作

    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("mapPartitions1")
    val sc = new SparkContext(conf)
    val file: RDD[Int] =sc.makeRDD(List(1,2,9,11,3,9,4,22,11),2)

    val result: RDD[Int] = file.mapPartitions(s => {

      Array(s.max).iterator

    })
    result.foreach(println)
    sc.stop()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

faiss簡單測試方法

先把倉庫克隆到本地，我這邊還需要改cmake環境，在project上面加 set(CMAKE_CUDA_COMPILER /usr/local/cuda-11.8/bin/nvcc) 構建 mkdir build cmake -B bui

2024-04-28 14:29:59

WPF & Prism

WPF編程-Prism 世有伯樂，然後有千里馬。千里馬常有，而伯樂不常有。一、背景 Winform和WPF 1. WinForms和WPF 技術架構： WinForms是基於傳統的窗體和控件的技術，使用的是類

2024-04-28 14:25:08

一個庫幫你輕鬆的創建漂亮的.NET控制檯應用程序

前言做過.NET控制檯應用程序的同學應該都知道原生的.NET控制檯應用程序輸出的內容都比較的單調，假如要編寫漂亮且美觀的控制檯輸出內容或者樣式可能需要花費不少的時間去編寫代碼和調試。今天大姚給大家分享一個.NET開源且免費的類庫幫你輕鬆的

2024-04-28 14:22:48

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

大家好，我是R哥。說說最近的面試輔導，有個學員進了某個知名互聯網公司，拿到了 35K*14 薪的好成績，有不少粉絲留言問我，現在行情這麼差，他是怎麼做到的？這篇拿他這個案例完整回顧一下吧，我管他叫小Y吧。背景溝通說下小Y的基本情況吧

2024-04-28 14:22:17

電腦刷新率的選擇

選120hz的比60hz更護眼.

張博的博客

2024-04-28 14:20:47

Python 潮流週刊#48：Python 3.14 的發佈計劃

本週刊由 Python貓出品，精心篩選國內外的 250+ 信息源，爲你挑選最值得分享的文章、教程、開源項目、軟件工具、播客和視頻、熱門話題等內容。願景：幫助所有讀者精進 Python 技術，並增長職業和副業的收入。本期分享了 12 篇文

豌豆花下貓

2024-04-28 14:20:07

gpu機器沒有開啓ipv6

參考： https://blog.csdn.net/asdfaa/article/details/137884414 檢查系統是否支持 IPv6,查看被禁用了在啓用 IPv6 之前，首先要確保您的系統支持 IPv6。要檢查內核

2024-04-28 14:14:47

pl0詞法分析器

pl/0詞法分析器下面是這個分析器的功能： 1、待分析的簡單語言的詞法（1）關鍵字： begin if then while do end 所有關鍵字都是小寫。（2）運算符和界符： := + – * / < <= <> > >=

2024-04-28 14:14:06

VS2008 LIB的升級改造

今天用VS2019編譯一個在VS2008下Coding的工程的時候，VS給出了一堆鏈接錯誤信息，如下圖所示的一些錯誤： Error 47 error LNK2019: unresolved external symbol "public

2024-04-28 14:14:06

Windows平臺NASM彙編與C混合調用

Windows平臺NASM彙編與C混合調用 tonyblackwhite 之前介紹了Windows平臺下，用微軟宏彙編MASM與C混合調用的方法。MASM是微軟獨有的，Linux沒法用，我喜歡學一個能夠應用於兩種平臺的，所以還是更鐘情於開源

2024-04-28 14:14:06

程序員想通過產品掙錢，首先你產品的目標客戶得不差錢（在線客服系統外傳1）

在線客服系統我利用業餘時間斷斷續續做了好幾年，從一開始的追求完美，到後來的集中精力解決核心問題，從一開始的在每一個用戶身上投入大量時間，到後來學會分辨什麼是有價值客戶，學到很多，成長很多。有許多工程技術上很好，很優秀的產品，甚至一定程度上

2024-04-28 14:14:06

springboot~redis的hash結構爲key設置過期策略

redis配置文件開啓鍵過期 # The "notify-keyspace-events" takes as argument a string that is composed # of zero or multiple charac

2024-04-28 14:13:26

如何開發一個符合人性的機器人通知功能

國內的IT企業逐漸的都有各種IM機器人，這些IM機器人會不斷的吐數據，但是這些吐數據最後都成了像垃圾消息或者周扒皮一樣的催命通知，完全沒有人性。我非常痛恨這種把IM裏不斷被催的方式，這種方式雖然能起作用，但是人在這種環境下工作真的就成了工具

2024-04-28 14:09:16

【轉】[WPF] 複製文本到剪貼板

來自：阿里的通義靈碼以下是幾種常見的複製數據類型到剪切板的方法：複製文本到剪切板 using System.Windows.Forms; // 對於Windows Forms應用 // 或者 using System.Windows

2024-04-28 14:05:45

Python: Regular expressions

@staticmethod def strSplit(textSource: str, patterns: str)->list: """ 分割字符串 :param

®Geovin Du Dream Park™

2024-04-28 14:01:24

24小時熱門文章

最新文章

最新評論文章