RDD的分區計算-mapPartitions

原創

小白programmer

2019-04-23 17:44

spark中RDD計算是以分區爲單位的，而且計算函數都是在對迭代器複合，不需要保存每次計算的結果。mapPartitions的輸入函數是應用於每個分區，也就是把每個分區的內容作爲整體來處理的：

def mapPartitions[U:ClassTag](f:Iterator[T]=>Iterator[U], preservesPartitioning:Boolean=false):RDD[U]

f即輸入函數，它處理每個分區裏面的內容。每個分區的內容將以Iterator[T]傳遞給輸入函數f，f的輸出結果是Iterator[U]。最終的RDD由所有分區經過輸入函數處理後的結果合併起來的。在下面的例子中，函數iterfunc是把分區中的一個元素和它的下一個元素組成一個Tuple。

scala> val a=sc.parallelize(1 to 9,3)
a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

scala> def iterfunc [T](iter:Iterator[T]):Iterator[(T,T)]={
     | var res=List[(T,T)]()
     | var pre=iter.next
     | while(iter.hasNext){
     | val cur=iter.next
     | res::=(pre,cur)
     | pre=cur}
     | res.iterator}
iterfunc: [T](iter: Iterator[T])Iterator[(T, T)]

scala> a.mapPartitions(iterfunc)
res0: org.apache.spark.rdd.RDD[(Int, Int)] = MapPartitionsRDD[1] at mapPartitions at <console>:29

scala> a.mapPartitions(iterfunc).collect()
res1: Array[(Int, Int)] = Array((2,3), (1,2), (5,6), (4,5), (8,9), (7,8))

scala>  a.mapPartitions(iterfunc).glom()
res2: org.apache.spark.rdd.RDD[Array[(Int, Int)]] = MapPartitionsRDD[4] at glom at <console>:29

因爲分區中最後一個元素沒有下一個元素，所以（3，4）和（6，7）不在結果中。
collect()和glom()可以把rdd轉換成數組

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

windows下使用maven編譯spark源碼

1.環境 jdk1.8 scala2.11.8 spark2.11 maven4.0 2.github客戶端官方給出的命令是在Linux上的 ./build/mvn -DskipTests clean package

2020-06-23 20:54:59

windows配置spark運行環境

1.java配置使用jdk1.8 配置略 2.下載、配置scala 官網下載scala，解壓放到自己的目錄下。目錄不要有空格把Scala的bin文件夾所在目錄配置到環境變量的path中（過程和jdk配置一樣）測試是有完成

2020-06-23 20:54:59

Scala關鍵字class和object

面向對象和Java一樣Scala面向對象類是對象的模板、抽象。定義一個類後，可以使用關鍵字new來創建一個類的對象。通過對象可以使用定義的類的所有功能。 class class表示類和Java不同，class不能運行

2020-06-23 13:53:05

spark程序提交集羣和監控

運行模式 Spark 應用在集羣上作爲獨立的進程組來運行，在 main 程序中通過 SparkContext 來協調（稱之爲 driver 程序） 1.每個應用獲取到它自己的 Executor 進程，它們會保持在整個應用的生命週

2020-06-23 13:53:03

整理一些Spark數據傾斜解決的思路

項目中經常會使用到Spark進行批處理，數據量大的時候總是會遇到數據傾斜的情況，參考了項目中遇到的情況以及網上的一些案例，寫篇文章來總結下如何處理Spark中常見的數據傾斜問題。當然由於業務場景不一樣，本文說到的一些解決數據傾斜的

淡定一生2333

2020-07-02 07:35:58

Spark學習筆記（RDD編程基礎）

1. RDD創建　 spark core 從文件讀取　 >>> lines = sc.textFile("file:///user/data_path") # local Scala> val lines = sc.textFile("

2020-06-26 05:05:56

Spark學習筆記（基本概念與環境部署）

21/08/2019 10.Spark概述 spark速度快的原因 1.內存計算 2.有向無環圖通用性很強：以前需要1.SQL查詢：spark SQL實現 2.流式計算：spark stremming 實

2020-06-26 05:05:56

spark RDD的5個重要內部屬性

RDDs 接口的五個屬性下表總結了 RDDs 的五個屬性：上述屬性可以概括爲幾個方面：一組分區，表示數據集包含的分片；一組依賴關係，指向其父 RDD；一個函數，基於父 RDD 進行計算；以及劃分策略和數據位置相關的元數據。

2020-06-23 09:23:51

IDEA中直接提交Spark任務

記錄下如何在Widows下的IDEA中直接提交Spark on yarn任務。由於項目使用的是Spring Boot，這裏提交任務指的是在IDEA中啓動Spring Boot工程，然後發送一個Rest請求，觸發Spark on y

淡定一生2333

2020-06-22 23:04:51

Spark數據傾斜如何解決

項目中經常會使用到Spark進行批處理，數據量大的時候總是會遇到數據傾斜的情況，參考了項目中遇到的情況以及網上的一些案例，寫篇文章來總結下如何處理Spark中常見的數據傾斜問題。當然由於業務場景不一樣，本文說到的一些解決數據傾斜的

淡定一生2333

2020-06-22 21:18:39

(七)Spark源碼理解之TaskScheduler----part6

恩。。。。由於最近這段時間都在實習以及找工作，因此就將博客給落下了，現在繼續將spark的部分"搬上"。。PS:雖然我自己也忘得差不多了。。 4.Executor Executor類完成任務的裝載，任務的運行等功能，它有個變量爲Exec

2020-06-22 07:57:58

(七)Spark源碼理解之TaskScheduler----part4

resourceOffers()：該方法是TaskSchedulerImpl的核心所在，實現將任務指定給對應的從節點中的executor，其主要思路可以概述爲：首先將獲取的每個executor的資源，組成組成WorkerOffer序列，

2020-06-22 07:57:58

SparkCore學習筆記（一）

2017/1/10 8:27 Spark架構原理 **概念詞彙：**Application，Application Jar，Driver program（驅動程序）、Cluster Manager（管理集羣資源的外部服務）、Dep

2020-06-22 07:19:00

spark中查詢PG數據庫老是報無法找到該列

最近學習spark的過程中，發現在使用spark中的sql語句查詢數據的時候老是報錯： 16/11/30 19:38:42 ERROR Executor: Exception in task 0.0 in stage 2.0 (

左左左左想

2020-06-16 07:09:10

Windows報Failed to locate the winutils binary in the hadoop binary path，java.io.IOException:

版權聲明：未經允許，隨意轉載，請附上本文鏈接謝謝（づ￣3￣）づ╭❤～ http://blog.csdn.net/xiaoduan_/article/details/79476815 Windows平臺上運行hadoop與spa

2020-06-16 06:40:21

24小時熱門文章

最新文章

最新評論文章