Spark算子 - groupByKey

原創

2021-06-15 12:59

釋義

根據RDD中的某個屬性進行分組，分組後形式爲(k, [v1, v2, ...])
方法簽名如下：

def groupByKey(): RDD[(K, Iterable[V])] = self.withScope {
    ...
}

案例

查看每個科目有哪些學生選擇

object TestGroupByKey {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("TestReduceByKey").setMaster("local[1]")
    val sc: SparkContext = new SparkContext(conf)
    val data = Array(("Science", "Jack"), ("Science", "Tom"), ("Music", "Nancy"), ("Sport", "Tom"), ("Music", "Tony"))
    val result: Array[(String, Iterable[String])] = sc.parallelize(data)
      .groupByKey()
      .collect()
    result.foreach(println)
  }
}

輸出

(Music,CompactBuffer(Nancy, Tony))
(Science,CompactBuffer(Jack, Tom))
(Sport,CompactBuffer(Tom))

解釋

根據key分組，即根據科目分組，分組後爲K-V型RDD，key爲科目，value爲元素是學生名字的CompactBuffer
- 這是Spark定義的結構（源碼），類似於Scala原生的ArrayBuffer，但比後者性能更好
- CompactBuffer 繼承自序列，因此它很容易的進行遍歷和迭代，可以把它理解成一個列表
groupByKey 與groupBy 的最大區別就是前者計算後CompactBuffer 的元素沒有原始的key，而後者有

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

基於vllm，探索產業級llm的部署

一、基本情況 vLLM 部署大模型官方網址: https://vllm.ai github 地址：https://github.com/vllm-project/vllm vLLM 是一個快速且易於使用的庫，用於進行大型語言模型（LLM）

2024-04-24 14:24:31

5款開源、美觀、強大的WPF UI組件庫

前言經常看到有小夥伴在DotNetGuide技術社區交流羣裏提問：WPF有什麼好用或者好看的UI組件庫？,今天大姚給大家分享5款開源、美觀、強大、簡單易用的WPF UI組件庫。 WPF介紹 WPF 是一個強大的桌面應用程序框架，用於構建具

2024-04-24 14:23:11

條款46：需要類型轉換時請爲模板定義非成員函數條款24：若所有參數皆需類型轉換，請爲此採用non-member函數

條款24 ----》條款24：若所有參數皆需類型轉換，請爲此採用non-member函數 **

2024-04-24 14:23:01

面試官：在原生input上面使用v-model和組件上面使用有什麼區別？

前言還是上一篇面試官：來說說vue3是怎麼處理內置的v-for、v-model等指令？文章的那個粉絲，面試官接着問了他另外一個v-model的問題。面試官：vue3的v-model都用過吧，來講講。粉絲：v-model其實就

你假裝沒察覺

2024-04-24 14:22:31

盟軍敢死隊2 360關

https://www.52pojie.cn/thread-1179852-1-1.html 下載後, 先D:\Comm2\Win10全屏補丁運行全屏補丁. 然後Comm2P.exe 右鍵屬性,設置更改dpi, 設置爲應用程序的放縮. 然

張博的博客

2024-04-24 14:21:11

AI 模型

智譜 https://chatglm.cn/main/alltoolsdetail kimi https://kimi.moonshot.cn/ 百川 https://www.baichuan-ai.com/chat

2024-04-24 14:16:10

網購消費投訴平臺

12315 https://www.12315.cn/cuser/ 互聯網信息服務投訴平臺 https://ts.isc.org.cn/#/login

2024-04-24 14:16:10

《最新出爐》系列入門篇-Python+Playwright自動化測試-40-錄製生成腳本

1.簡介各種自動化框架都會有腳本錄製功能， playwright這麼牛叉當然也不例外。很早之前的selenium、Jmeter工具，發展到每種瀏覽器都有對應的錄製插件。今天我們就來看下微軟自動化框架playwright是如何錄製腳本的。很

2024-04-24 14:15:50

c語言使用

如何驗證gcc正常使用，編譯c以及運行過程要驗證GCC（GNU Compiler Collection）是否正常使用，您可以按照以下步驟進行操作：檢查GCC是否安裝：打開終端或命令行界面，輸入以下命令來檢查GCC是否已安裝：

2024-04-24 14:15:10

springboot~mybatis-plus中使用TypeHandler做類型映射

mybatis-plus中，如果數據表字段類型與java實體字段類型不一樣，這時就需要做類型映射與轉換了，我們一般可以實現TypeHandler接口，或者繼承抽象類BaseTypeHandler，我們下面舉例來說明一下它的使用方法。場景

2024-04-24 14:13:50

Computer Basics 05 - Inside a Computer

Inside a computer Have you ever looked inside a computer case, or seen pictures of the inside of one? The small parts ma

2024-04-24 14:11:39

Computer Basics 10 - Setting Up a Computer

Setting up a computer Настройка компьютера So you have a new computer and you're ready to set it up. This may seem li

2024-04-24 14:11:39

代碼段——C#判斷時間是否在某個範圍

目錄1.使用DateTime.Compare()2.通過時間相減計算時間間隔，可以指定精確度 1.使用DateTime.Compare() 注意：兩個比較的時間，一定與相同的時間精度，比如都精確到分鐘，或都精確到日注意：這裏我判斷指定時

2024-04-24 14:11:09

java操作ftp server

參考：https://www.jianshu.com/p/2efc2669b736 POM依賴 <dependency> <groupId>commons-net</groupId>

2024-04-24 14:11:09

Linux shell格式化XML文件

在沒有工具的情況下， cat a.xml | awk -F'><' '{printf "%s\n",$1;for (i=2;i<NF;i++) printf "<%s>",$i;printf "<%s\n" $NF}'

2024-04-24 14:11:09

24小時熱門文章

自學編程兩個月，現在我月入 4 萬元

最新文章

最新評論文章