spark 使用aggregateByKey 代替groupbyKey

原創

记录每一份笔记

2018-12-29 23:20

性能調優中有個方案，叫使用 aggregateBykey 代替 groupbykey，爲啥呢？

應爲aggregateByKe，使用map-side預聚合的shuffle操作，相當於再map端進行了聚合的操作，相當於mapreduce 中進行combiner

介紹一下aggregateBykey這個方法

這裏面一共傳了三個參數，這裏用到了柯里化，我分別做一下參數介紹，教不懂的同學看下怎末看方法

zeroValue ：這是傳個任意類型的初始值，他的類型U你要注意, 因爲你最終返回的類型也必須是這個類型U

seqOp(U,Int) : 這個方法主要是做相同key再同一個partition 的聚合操作，兩個參數(U,int) 第一個參數是你開始初始值U,第二個類型是數據的value的類型，返回類型爲你定義的zeroValue 的類型

combOp : 根據key 對不同分區的數據進行一個聚合操作(也就是對seqOp的結果做合併操作)，連個參數(U,U)這兩個的類型都是你的 seqOp返回類型，

這些信息其實都是可以從方法的定義中得到的，注意看下我上面的截圖

使用 aggregateByKey 代替groupbyKey 的demo

  val data=List((1,3),(1,2),(1,4),(2,3))
    val rdd=sc.parallelize(data )
    //合併不同partition中的值，a，b得數據類型爲zeroValue的數據類型
    def combOp(a:List[Int],b:List[Int]):List[Int] ={
      a ++ b
    }
    def seqOp(a:List[Int],b:Int):List[Int]={
        List(a(0)+b)
    }
 
    val aggregateByKeyRDD=rdd.aggregateByKey(List(0))(seqOp, combOp)
      aggregateByKeyRDD.foreach(println)
    val groupbykeyRDD=rdd.groupByKey()
     groupbykeyRDD.foreach(println)

這裏是運行的結果，他們的都是一樣的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Git使用經驗總結4-撤回上一次本地提交

這個問題的意義在於，Git提交代碼是先提交到本地，然後再推送到遠端。一些比較嚴格的Git倉庫會有一些代碼提交檢查，一旦檢查到問題就會禁止提交。那麼這個時候就尷尬了，本地已經提交了，但是遠端又推送不上去。基於當前版本作修改再提交也不一定能推送

2024-05-08 14:31:14

Git使用經驗總結5-修改提交信息

還是先說說這個這樣做的目的爲什麼。除了正常的進行代碼變更說明修改，更重要的是Git提交的時候能夠觸發一些操作，例如在Github上提交close#24這樣的關鍵字可以將提交關聯到具體的issue上，這樣可以讓變更關聯到具體的需求或者討論上。

2024-05-08 14:31:14

全站變灰色樣式通用

html { -webkit-filter: grayscale(100%); -moz-filter: grayscale(100%); -ms-filter: grayscale(100%); -o-filter: grayscale(

2024-05-08 14:30:44

php-strpos 判斷一個字符串是否存在於另一個字符串中

在 PHP 中，你可以使用 strpos() 函數來判斷一個字符串（例如 "play"）是否存在於另一個字符串中。strpos() 函數會返回子字符串在原始字符串中首次出現的位置（索引從 0 開始），如果子字符串不存在，則返回 false。

流年中渲染了微笑

2024-05-08 14:30:04

編程隨想曲週刊（第75期）

這裏記錄每週的所見所聞，週日發佈。點擊閱讀原文可以直接訪問文章鏈接。文章看完豆瓣電影250後的體驗羅永浩的嘴，蔚來的腿熱點蔡崇信最新發聲：阿里承認錯誤，我們到了最危險的時刻！ 5年來首次，馬雲內網髮長文播客 156.程

2024-05-08 14:27:23

編程隨想曲週刊（第76期）

這裏記錄每週的所見所聞，週日發佈。點擊閱讀原文可以直接訪問文章鏈接。編程從零開始的 OpenWrt 工具互聯網上最值得信賴的指南網站 Apple Store一條新規，直接讓遊戲機模擬器登頂了 iOS最強模擬器 Delta 正式上

2024-05-08 14:27:23

DeepFilterNet復現

大概框架有兩路特徵，一個ERB特徵，另外一個是STFT之後的複數特徵。先使用ERB濾波器對ERB特徵進行增益，然後再傳入DNN模型，兩階段模型。整體時延最低可達5ms。這裏提到的DeepFilter，其實就是說用神經網絡對TF譜進行操

2024-05-08 14:25:33

條款49：瞭解 new handler 的行爲

2024-05-08 14:21:53

同事使用 insert into select 遷移數據，開開心心上線，上線後被公司開除！

作者：xlecho 鏈接：https://juejin.cn/post/6931890118538199048 血一般的教訓，請慎用 insert into select。同事應用之後，導致公司損失了近10w元，最終被公司開除。事情

2024-05-08 14:21:32

多語言實現 - 世界語言對應的簡寫

準備多語言文件： messages_en.properties、messages_zh.properties Locale locale = new Locale("en", "US"); // 設置語言爲英文，地區爲美國 Re

2024-05-08 14:15:12

《最新出爐》系列入門篇-Python+Playwright自動化測試-44-鼠標操作-上篇

1.簡介前邊文章中已經講解過鼠標的拖拽操作，今天宏哥在這裏對其的其他操作進行一個詳細地介紹和講解，然後對其中的一些比較常見的、重要的操作單獨拿出來進行詳細的介紹和講解。 2.鼠標操作語法鼠標操作介紹官方API的文檔地址：https://

2024-05-08 14:14:42

Docker 安裝 Elasticsearch 和 kibana

獲取鏡像 docker pull elasticsearch:8.11.4 docker pull elasticsearch:8.11.4 創建網絡 docker network create es-net 運行 es d

2024-05-08 14:14:21

算法~PBKDF2-SHA讓密碼更安全

摘要：在當今的數字世界中，密碼安全是至關重要的。爲了保護用戶密碼免受未經授權的訪問和破解，Password-Based Key Derivation Function 2 (PBKDF2)算法成爲了一種重要的工具。在 PBKDF2 算法中

2024-05-08 14:12:31

Computer Basics - Top 10 keyboard shortcuts everyone should know

REF https://www.computerhope.com/tips/tip79.htm Top 10 keyboard shortcuts(快捷鍵) everyone should know Using keyboard short

2024-05-08 14:10:30

Computer Basics - How to use a computer keyboard

REF https://www.computerhope.com/issues/ch001689.htm https://www.digitalunite.com/technology-guides/compute

2024-05-08 14:10:30

24小時熱門文章

最新文章

最新評論文章