RDD行動算子

RDD行動算子

原創

SDUTyangkun

2020-06-23 21:39

2.4.1 reduce(func)案例

作用：通過func函數聚集RDD中的所有元素，先聚合分區內數據，再聚合分區間數據。
需求：創建一個RDD，將所有元素聚合得到結果。

（1）創建一個RDD[Int]
scala> val rdd1 = sc.makeRDD(1 to 10,2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[85] at makeRDD at <console>:24
（2）聚合RDD[Int]所有元素
scala> rdd1.reduce(_+_)
res50: Int = 55
（3）創建一個RDD[String]
scala> val rdd2 = sc.makeRDD(Array(("a",1),("a",3),("c",3),("d",5)))
rdd2: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[86] at makeRDD at <console>:24
（4）聚合RDD[String]所有數據
scala> rdd2.reduce((x,y)=>(x._1 + y._1,x._2 + y._2))
res51: (String, Int) = (adca,12)

2.4.2 collect()案例

作用：在驅動程序中，以數組的形式返回數據集的所有元素。
需求：創建一個RDD，並將RDD內容收集到Driver端打印

（1）創建一個RDD
scala> val rdd = sc.parallelize(1 to 10)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24
（2）將結果收集到Driver端
scala> rdd.collect
res0: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

2.4.3 count()案例

作用：返回RDD中元素的個數
需求：創建一個RDD，統計該RDD的條數

（1）創建一個RDD
scala> val rdd = sc.parallelize(1 to 10)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24
（2）統計該RDD的條數
scala> rdd.count
res1: Long = 10

2.4.4 first()案例

作用：返回RDD中的第一個元素
需求：創建一個RDD，返回該RDD中的第一個元素

（1）創建一個RDD
scala> val rdd = sc.parallelize(1 to 10)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24
（2）統計該RDD的條數
scala> rdd.first
res2: Int = 1

2.4.5 take(n)案例

作用：返回一個由RDD的前n個元素組成的數組
需求：創建一個RDD，統計該RDD的條數

（1）創建一個RDD
scala> val rdd = sc.parallelize(Array(2,5,4,6,8,3))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at <console>:24
（2）統計該RDD的條數
scala> rdd.take(3)
res10: Array[Int] = Array(2, 5, 4)

2.4.6 takeOrdered(n)案例

作用：返回該RDD排序後的前n個元素組成的數組

需求：創建一個RDD，統計該RDD的條數

（1）創建一個RDD
scala> val rdd = sc.parallelize(Array(2,5,4,6,8,3))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at <console>:24
（2）統計該RDD的條數
scala> rdd.takeOrdered(3)
res18: Array[Int] = Array(2, 3, 4)

2.4.7 aggregate案例

參數：(zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)
作用：aggregate函數將每個分區裏面的元素通過seqOp和初始值進行聚合，然後用combine函數將每個分區的結果和初始值(zeroValue)進行combine操作。這個函數最終返回的類型不需要和RDD中元素類型一致。
需求：創建一個RDD，將所有元素相加得到結果

（1）創建一個RDD
scala> var rdd1 = sc.makeRDD(1 to 10,2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[88] at makeRDD at <console>:24
（2）將該RDD所有元素相加得到結果
scala> rdd.aggregate(0)(_+_,_+_)
res22: Int = 55

注：rdd1.aggregate(初始值)() 其中初始值分區內和每個元素加一次，分區間又得加一次

而aggregateByKey只是分區內加初始值，而分區間不會加初始值。本次案例若使用aggregate答案會是75

scala> var rdd1 = sc.makeRDD(1 to 10,2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[5] at makeRDD at <console>:24

scala> rdd1.aggregate(10)(_+_,_+_)
res6: Int = 85

.4.8 fold(num)(func)案例

作用：摺疊操作，aggregate的簡化操作，seqop和combop一樣。
需求：創建一個RDD，將所有元素相加得到結果

（1）創建一個RDD
scala> var rdd1 = sc.makeRDD(1 to 10,2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[88] at makeRDD at <console>:24
（2）將該RDD所有元素相加得到結果
scala> rdd.fold(0)(_+_)
res24: Int = 55

2.4.9 saveAsTextFile(path)

作用：將數據集的元素以textfile的形式保存到HDFS文件系統或者其他支持的文件系統，對於每個元素，Spark將會調用toString方法，將它裝換爲文件中的文本

2.4.10 saveAsSequenceFile(path)

作用：將數據集中的元素以Hadoop sequencefile的格式保存到指定的目錄下，可以使HDFS或者其他Hadoop支持的文件系統。

2.4.11 saveAsObjectFile(path)

作用：用於將RDD中的元素序列化成對象，存儲到文件中。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

RDD行動算子

RDD行動算子

2.4.1 reduce(func)案例

2.4.2 collect()案例

2.4.3 count()案例

2.4.4 first()案例

2.4.5 take(n)案例

2.4.6 takeOrdered(n)案例

2.4.7 aggregate案例

.4.8 fold(num)(func)案例

2.4.9 saveAsTextFile(path)

2.4.10 saveAsSequenceFile(path)

2.4.11 saveAsObjectFile(path)

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

【2024-05-21】以茶會友

RDD算子練習

RDD中的函數傳遞（序列化問題）

RDD行動算子

第5章 RDD編程進階

reducByKey總結

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結