Spark算子 - aggregateByKey

原創

2021-05-31 12:59

释义：

aggregateByKey逻辑类似 aggregate，但 aggregateByKey针对的是PairRDD，即键值对 RDD，所以返回结果也是 PairRDD，结果形式为：(各个Key, 同样Key对应的Value聚合后的值)。
aggregateByKey先将每个partition内元素进行分组计算，然后将每个partition的计算结果进行combine，得到最终聚合结果。且最终结果允许跟原始RDD类型不同
方法签名如下：

def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)] = self.withScope {
    ...
}

案例：

统计单词个数 WordCount

object TestAggregateByKey {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().appName("MyApp").master("local[1]").getOrCreate()
    val data = Array("hello world", "simple app is good", "good world")
    val result: Array[(String, Int)] = spark.sparkContext.parallelize(data, 1)
      .flatMap(_.split(" "))
      .map((_, 1))
      .aggregateByKey(0)(
        (cnt1: Int, cnt2: Int) => cnt1 + cnt2,
        (partitionAllCnt1: Int, partitionAllCnt2: Int) => partitionAllCnt1 + partitionAllCnt2
      )
      .collect()
    result.foreach(println)
  }
}

输出：

(is,1)
(app,1)
(simple,1)
(hello,1)
(good,2)
(world,2)

解释：

先将每个词map成 (词语, 1)的形式
调用aggregateByKey之后，每个partition内已经按key进行分组了，之后传入初始值0作为每个组的个数，接着进行 cnt1 + cnt2，就是同个key内进行1+1操作，比如单词good 有两个value都是1，此时单词good的组内，计算的值即为2
所有partition的结果进行计算

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

为 AntdUI 扩展一个 MessageBox 方法

AntdUI 是個很不錯的開源 WinFrom 界面組件，使用中感覺消息對話框調用有點麻煩，於是按照 MessageBox.Show 的使用習慣，增加了一個擴展方法來調用，廢話不多說，直接上代碼。 1 using System.Win

2024-04-27 14:38:21

电子科技大学计算机科学与技术就读体验

已經在 UESTC 度過了第四個年頭，也馬上要畢業了，確實值得回味下，也發表一下我對 UESTC 整個的看法。個人經歷 20年疫情爆發，強基出臺，非國賽的競賽全部作廢。當時第一志願是北理工，但是北理工搞了個自選專業的政策把投檔線拉到了66

瓜皮大哥丶

2024-04-27 14:38:21

【面试准备】又一次失败的面试经历，题目离谱～资深软件测试工程师

這個公司感覺是個好公司，爲啥呢？給的錢看起來挺多的，哇咔咔，加班也不是很嚴重，說是晚上七八點就下班了。測試團隊規模50人，面試官準時進到了我的騰訊會議，但是他點開簡歷，發現我並不是簡歷上的那個人，於是他就退出去了原來是HR搞錯了。後來面

金大鑫要堅持

2024-04-27 14:36:00

（收藏）Mac电脑虚拟机Parallels Desktop 19 亲测稳定可用

前言使用mac電腦時，總有某些場景需要用windows，又不願意裝雙系統，更不可能準備兩個電腦。上網搜索，瞭解到mac又一個PD虛擬機，超級好用，果斷查找資源，必須給安裝上正文經過不斷的嘗試和使用，終於發現了一個網站裏提供的 PD虛擬

2024-04-27 14:31:30

Linux内核之I2C协议

I2C協議標準文檔 THE I2C-BUS SPECIFICATION VERSION 2.1 JANUARY 2000: https://www.csd.uoc.gr/~hy428/reading/i2c_spec.pdf I2C全稱In

藍天上的雲℡

2024-04-27 14:30:50

收藏的博客 -- Qt/C++学习收藏的博客 -- Qt/C++学习

收藏的博客 -- Qt/C++學習

2024-04-27 14:30:50

Trie树带模糊查询, ?代表单个非空字符

https://github.com/zhangbo2008/Trie_with_informationExtraction_and_fuzzy_matchingv2

張博的博客

2024-04-27 14:28:49

keycloak~RequiredActionProvider中获取表单认证前URL的参数

在keycloak中，我們在進行brower瀏覽器的表單認證時，一般在跳到本頁面時，URL上會有redirect_uri這種參數，用來告訴keycloak，在認證成功後的跳轉地址，你在表單認證控制器中，可以通過context.getHttp

2024-04-27 14:21:39

Bochs内存中的Guest和Host

Bochs是通過配置文件（.bxrc文件）的方式來設置模擬計算機的硬件參數，其中MEMORY部分，分別需要設置Guest和Host的大小來決定虛擬計算機的內存大小，有什麼區別呢？通過下面的Bochs構架圖可以弄清楚：要點說明

2024-04-27 14:20:49

统计原理平均数

在統計學中，算術平均數和調和平均數都是常用的描述數據集中趨勢的指標，但它們的計算方法和解釋有所不同。算術平均數：算術平均數是一組數據中所有數值的總和除以數據的個數。它是最常見的平均數類型，用於表示數據的集中趨勢。算術平均數對數據

2024-04-27 14:15:48

SQL窗口分析函数使用详解系列三之偏移量类窗口函数

1.綜述本文以HiveSQL語法進行代碼演示。對於其他數據庫來說同樣也適用，比如SparkSQL，FlinkSQL以及Mysql8，Oracle，SqlServer等傳統的關係型數據庫。已更新第一類聚合函數類，點擊這裏閱讀 ①SQL窗

2024-04-27 14:15:08

openharmony 多线程的方式有哪些？两个worker线程数据如何通讯、内存如何共享、与Java多线程有什么区别？

OpenHarmony操作系統支持多種多線程併發處理策略，以提升應用的響應速度與幀率，以及防止耗時任務對主線程的干擾。以下是OpenHarmony中的多線程方式，以及Worker線程間的數據通訊和內存共享方法，還有它們與Java多線程的區別

2024-04-27 14:13:28

HarmonyOS 鸿蒙隔离层设计

在軟件開發中，底層庫的更換或升級是常見的需求，這可能由性能提升、新功能需求或安全性考慮等因素驅動。爲了降低遷移成本，良好的設計模式至關重要。在版本迭代過程中，網絡請求庫可能會經歷從A到B再到C的演進。爲了實現業務層的無感切換，需要在各個

2024-04-27 14:13:28

2024年最好用的10款ER图神器！

分享10款ER圖工具，詳細分析他們的功能特點、價格和適用場景，可以根據你的需求進行選擇。ER圖（Entity-Relationship Diagram）是數據庫設計中常用的一種模型，用於描述實體之間的關係。這種圖形化的表示方法旨在幫助人們理

路人111122233

2024-04-27 14:07:57

web server apache tomcat11-22-logging 日志

前言整理這個官方翻譯的系列，原因是網上大部分的 tomcat 版本比較舊，此版本爲 v11 最新的版本。開源項目從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎，輕嗅薔薇。系列文章 web server apac

2024-04-27 14:06:47

24小時熱門文章

最新文章

最新評論文章