Spark算子 - reduceByKey

原創

2021-06-10 12:59

釋義

reduceByKey類似reduce，但reduceByKey 是先根據key進行分組，再將每個組內的記錄歸併成1個記錄，最終返回一個PairRDD，k爲key類型，v爲每個組歸併後的記錄類型

方法簽名如下：

def reduceByKey(func: (V, V) => V): RDD[(K, V)] = self.withScope {
    ...
}

func: 根據key分組後的每個組，組內進行歸併最終只有一個結果。輸入類型爲V跟V，輸出爲V，即輸入類型與輸出類型一致

案例1

統計單詞個數/wordcount
參考：https://www.cnblogs.com/convict/p/14828084.html

案例2

已知每個店的水果單價，求市場上每種水果的平均價格

object TestReduceByKey {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("TestReduceByKey").setMaster("local[1]")
    val sc: SparkContext = new SparkContext(conf)
    val data = Array(("Apple", 5.0), ("Apple", 5.5), ("Banana", 2.0), ("Pear", 2.0))
    val result: Array[(String, Double)] = sc.parallelize(data)
      .map(v => (v._1, (v._2, 1)))
      .reduceByKey((v1, v2) => (v1._1 + v2._1, v1._2 + v2._2))
      .map(v => (v._1, v._2._1 / v._2._2))
      .collect()
    result.foreach(println)
  }
}

輸出

(Apple,5.25)
(Pear,2.0)
(Banana,2.0)

解釋

先map成新元組，即(name, (price, 1))
調用reduceByKey後，此時v1與v2都是value值，即都是上一步的(price, 1)，此時同個key的組內price與price相加，1與1相加做爲數量和，最終形成(price之和, 數量之和) 的形式
對每個組的結果進行 price之和 除以 數量之和 的操作，得出每個水果的均價

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

StreamJsonRpc.ConnectionLostException 在請求完成之前, 與遠程方的 JSON-RPC 連接已丟失

今天電腦重啓之後，發現 visual studio 2022 的智能提示與報錯經常性不好用，不光不能在正常時候提示代碼錯誤信息，甚至在編譯過後也不提示錯誤。反覆重啓，剛開始正常，隔一會兒就會提示什麼什麼功能不可用，點開打開詳情，提示：Str

波多爾斯基

2024-04-23 14:32:26

10分鐘本地運行llama3及初體驗

Meta最新推出的開源大模型llama-3,被譽爲目前最強的開源大模型，能力接近於GPT 4.5. 因此在本地搭建一下搶鮮體驗系統環境 CPU: AMD Ryzen 5 3600X 6-Core Processor 4.10 GHz RA

摩羯座先生

2024-04-23 14:32:16

【筆記】動手學深度學習-前言

1、學習深度學習，首先第一點要親自動手。 2、相關anacoda的環境的安裝方法，用來隔絕相關的依賴關係，防止安裝包衝突。 3、機器學習程序不同於一般程序，能夠隨着數據的增加，通過調節內部的參數，展現出一定的智能的想象。 4、機器學習中的核

2024-04-23 14:29:45

手寫協議報文 c語言手法

鑑於絕大部分文件、網絡通信協議、非網絡通信協議都有類似的結構{類型，長度，校驗，不定長數據，結束標誌}，再高級點的會包含多個單層TLV，甚至嵌套TLV，狀態機流轉標誌等等。所以編程語言上也需要採用一定的手法。建立結構結構體和聯合體例如

藍天上的雲℡

2024-04-23 14:22:15

公司新來一個幹練小夥，把 MyBatis 替換成 MyBatis-Plus，上線後哭暈在廁所。。。

作者：青石路來源：https://www.cnblogs.com/youzhibing/p/18019399 MyBatis 替換成 MyBatis-Plus 背景介紹一個老項目，數據庫用的是 MySQL 5.7.36 ， ORM 框

2024-04-23 14:22:15

goweb性能分析 - 遠程分析

gin集成pporf main.go添加 import _ "net/http/pprof" gin路由添加 // r is *gin.Engine pprof.Register(r) 本地電腦鏈接到遠程web服務進行分析然後本地

藍天上的雲℡

2024-04-23 14:22:15

RT-Thread 4.x STM32F107

官方文檔很坑，新舊不分開，文檔缺失/分類很亂有些文檔在IDE RT-STUDIO文檔裏，有些在RTThread標準版文檔裏，逆天坑：不支持STM32CUBEMX的Advanced工程，記得重新保存生成basic工程才能用。不能使用.c/

藍天上的雲℡

2024-04-23 14:22:15

Azure REST API (0) 概述 Windows Azure Platform 系列文章目錄

　　《Windows Azure Platform 系列文章目錄》　　1.概述　　1.我們在使用Azure 雲服務的時候，可以通過Azure Portal: https://portal.azure.com,輸入郵箱地址和密碼，然後

Lei Zhang的博客

2024-04-23 14:21:25

盟軍敢死隊2 108關

可以算是最耐玩的遊戲了. 108關後面自定義的關都非常難. https://bbs.3dmgame.com/thread-6354239-1-1.html 更多的360關: https://www.52pojie.cn/thread-117

張博的博客

2024-04-23 14:20:44

淺談sparse vec檢索工程化實現

前面我們通過兩篇文章: BGE M3-Embedding 模型介紹和 Sparse稀疏檢索介紹與實踐介紹了sparse 稀疏檢索，今天我們來看看如何建立一個工程化的系統來實現sparse vec的檢索。之前提過milvus最新的V

2024-04-23 14:20:04

甲骨文(Oracle)宣佈將以74億美元收購Sun公司

IBM與Sun公司之間的收購風波還未塵埃落定，半路卻殺出了甲骨文公司這個“程咬金”。Oracle甲骨文公司和Sun微系統公司今天共同宣佈，雙方已經達成協議，甲骨文將以每股9.5美元的現金收購Sun公司，交易總價值74億美元。　　就在幾周

2024-04-23 14:18:34

NSS：IE8是最安全的瀏覽器

NSS實驗室近日的一份研究報告指出，IE8在惡意軟件防護方面較其它瀏覽器表現突出，NSS表示，當前有超過50%的惡意軟件都是通過網絡下載傳播的，該實驗室首次對五種主流瀏覽器的惡意網站的攔截性能進行了測試，IE8（RC版本）以69%的攔截率居

2024-04-23 14:18:34

Brian Sun：回覆“爲啥就那麼痛恨IE？”

這位仁兄很有自知之明:) 但是我並不打算罵你，我打算跟你講講道理。首先，在講道理之前，我先要說明一個事實，Mozilla的前身是Netscape Navigator，人類第一個商業瀏覽器，即做了非常成功的產品又做了非常成功的創業企業

2024-04-23 14:18:34

支持非IE瀏覽器真的那麼難嗎？

來源：http://www.kenengba.com/post/774.html 微軟最近推出了IE8正式版。當你知道上網需要的是瀏覽器，而不是那個"e"時，你一定知道，不管IE推出什麼版本，只要它的核心不變，它一直是個“老掉牙”的瀏覽器。

2024-04-23 14:18:34

爲啥就那麼痛恨IE？

　　看了《評論:支持非IE瀏覽器真的那麼難嗎？》一文，我覺得作者的分析太深刻了——一個典型的技術型人才。其實從技術上說，要支持IE根本不是什麼困難的事情，這個大家都很清楚。但是不遵循技術標準，並不代表國人素質低，並不代表國人不思改變、不思進

2024-04-23 14:18:34

24小時熱門文章

最新文章

最新評論文章