Spark算子 - groupBy

原創

2021-06-15 12:59

釋義

根據RDD中的某個屬性進行分組，分組後形式爲(k, [(k, v1), (k, v2), ...])，即groupBy 後組內元素會保留key值
方法簽名如下：

def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])] = withScope {
   ...
}

f: 分組操作。輸入類型爲T，操作過程爲K，最後RDD形式爲K, 迭代器(T)的形式，即同上所述形式

案例

查看每個科目有哪些學生選擇

object TestGroupBy {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("TestReduceByKey").setMaster("local[1]")
    val sc: SparkContext = new SparkContext(conf)
    val data = Array(("Science", "Jack"), ("Science", "Tom"), ("Music", "Nancy"), ("Sport", "Tom"), ("Music", "Tony"))
    val result: Array[(String, Iterable[(String, String)])] = sc.parallelize(data)
      .groupBy(v => v._1)
      .collect()
    result.foreach(println)
  }
}

輸出

(Music,CompactBuffer((Music,Nancy), (Music,Tony)))
(Science,CompactBuffer((Science,Jack), (Science,Tom)))
(Sport,CompactBuffer((Sport,Tom)))

解釋

根據v._1即名字進行分組，分組後key爲名字，value爲CompactBuffer

這是Spark定義的結構（源碼），類似於Scala原生的ArrayBuffer，但比後者性能更好
CompactBuffer 繼承自序列，因此它很容易的進行遍歷和迭代，可以把它理解成一個列表

分組後，CompactBuffer 中的值會保留調用groupBy時的RDD格式

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark算子 - groupBy

釋義

案例

輸出

解釋

公司新來一個幹練小夥，把 MyBatis 替換成 MyBatis-Plus，上線後哭暈在廁所。。。

支持非IE瀏覽器真的那麼難嗎？

爲啥就那麼痛恨IE？

2024 開源數據工程生態系統全景圖

Brian Sun：回覆“爲啥就那麼痛恨IE？”

【筆記】動手學深度學習-前言

體驗下，大廠在使用功能的API網關！

見鬼了！我家的 WiFi 只有下雨天才能正常使用...

短視頻文案提取原來如此簡單

oa系統集成及案例樣式

Linux htop 命令詳解

SQL的事務

MySQL生成數字序列/日期序列

kafka的auto.offset.reset詳解與測試

Could not find artifact org.pentaho:pentaho-aggdesigner-algorithm:pom:5.1.5-jhyde ... 解決方式

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結