討論Spark中RDD四種轉換聚合算子的區別（源碼角度）

原創

2021-02-22 09:32

首先，讓我們先思考一個問題：reduceByKey、foldByKey、aggregateByKey、combineByKey的區別？

解釋： 1.reduceByKey: 相同key的第一個數據不進行任何計算，分區內和分區間計算規則相同

2.foldByKey: 相同key的第一個數據和初始值進行分區內計算，分區內和分區間計算規則相同

3.AggregateByKey：相同key的第一個數據和初始值進行分區內計算，分區內和分區間計算規則可以不相同

4.CombineByKey:當計算時，發現數據結構不滿足要求時，可以讓第一個數據轉換結構。分區內和分區間計算規則不相同

爲了更直白的進行解釋，取出了部分源碼，並做了直白的操作（刪減了一些沒有影響到的源碼）

注意下面源碼只是爲了易懂進行了備註，實際情況需要實際瞭解—>>> 根據上述簡化的源碼可以分析得到，其實這四種聚合算子底層的實現都是combineByKey,只是其中的參數發生了系統的變化，目的是爲了實現多個計算場景

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

界面組件DevExpress Reporting中文教程 - 如何按條件顯示頁面水印？

DevExpress Reporting是.NET Framework下功能完善的報表平臺，它附帶了易於使用的Visual Studio報表設計器和豐富的報表控件集，包括數據透視表、圖表，因此您可以構建無與倫比、信息清晰的報表。從防止未經

2024-05-08 11:36:34

給picgo上傳的圖片加個水印

之前給大家介紹了picgo和免費的圖牀神器。我們本可以開開心心的進行markdown寫作了。但是總是會有那麼一些爬蟲網站過來爬你的文章，還把你的文章標明是他們的原著。咋辦呢？這裏有一個好的辦法就是把markdown中上傳的圖片加上自己的水

2024-04-16 21:30:57

如何將個人 NAS 裏的 Stable Diffusion 模型庫掛載到 PAI-EAS

通過在線遷移服務，您已經將SD公共模型庫的模型文件轉存到了自己的NAS文件目錄中，該存儲空間中的模型可以被用於SDWebUI，另外也可以將未來訓練和推理的結果保存到該NAS目錄中。您可以通過如下文件掛載方式來實現。 1.前往文件存儲NAS

2023-08-09 00:20:15

fooocus風格對照表 SDXL風格對照表

英文中文 cinematic-default 電影風格默認 sai-3d-model Sai三維模型 sai-analog film Sai模擬膠片 sai-anime Sai動畫 sai-cinematic

2023-08-25 09:31:27

Apache DolphinScheduler 3.1.9 版本發佈：提升系統的穩定性和性能

🚀我們很高興宣佈，Apache DolphinScheduler 的最新版本 3.1.9 已正式發佈！此版本在 3.1.8 的基礎上進行了關鍵的 bug 修復和文檔更新，共計修復了 14 個 bug 和改進了 3 個文檔。主要更新亮點

2023-12-28 21:27:33

Koordinator 助力雲原生應用性能提升：小紅書混部技術實踐

編者按： Koordinator 是一個開源項目，是基於阿里巴巴內部多年容器調度、混部實踐經驗孵化誕生，是行業首個生產可用、面向大規模場景的開源混部系統，致力於提升應用服務質量，優化資源使用效率。自 2022 年 4 月正式開源以來，吸

2023-12-06 01:15:02

雲原生場景下月省 10 萬元資源成本，這家企業做對了什麼

相信近期從事基礎設施工作的各位，對 IT 成本治理，以及 FinOps 體系的概念已經有了一些認知。在 Google 近 5 年的熱度趨勢中，FinOps 的趨勢也在持續上升。在阿里雲的同學與客戶實際工作協同中，我們發現成本治理是幾乎每位

2023-12-01 01:10:35

米哈遊大數據雲原生實踐

近年來，容器、微服務、Kubernetes 等各項雲原生技術的日漸成熟，越來越多的公司開始選擇擁抱雲原生，並開始將 AI、大數據等類型的企業應用部署運行在雲原生之上。以 Spark 爲例，在雲上運行 Spark 可以充分享有公共雲的彈性資源

2023-11-23 00:39:26

Koordinator 支持 K8s 與 YARN 混部，小紅書在離線混部實踐分享

背景介紹 Koordinator 是一個開源項目，基於阿里巴巴在容器調度領域多年累積的經驗孵化誕生，目前已經支持了 K8s 生態內的在離線混部，然而在 K8s 生態外，仍有相當數量的用戶會將大數據任務運行在 Apache Hadoop Y

2023-11-17 01:57:57

Hago 的 Spark on ACK 實踐

Hago 於 2018 年 4 月上線，是歡聚集團旗下的一款多人互動社交明星產品。Hago 融合優質的匹配能力和多樣化的垂類場景，提供互動遊戲、多人語音、視頻直播、 3D 虛擬形象互動等多種社交玩法，致力於爲用戶打造高效、多樣、最具沉浸式的

2023-11-17 01:57:56

datax 併發寫入問題解決？

問題描述：https://my.oschina.net/xiaominmin/blog/10111950 OriginalConfPretreatmentUtil - 您的配置有誤. 由於您讀取數據庫表採用了querySql的方式, 所以

2023-10-08 00:01:55

MaxCompute 發佈按量付費閒時版，計算成本最高節省66.66%！

什麼是按量付費閒時版開通MaxCompute按量付費閒時版，意味着用戶可以使用MaxCompute閒時計算資源（os_SpotQuota），它是一種共享型按量付費計算資源，閒時計算資源池與按量付費標準版計算資源共享，與包年包月計算資源隔

2023-08-17 00:29:28

spark sql 內置函數不支持在內部寫spark sql代碼

%spark import org.apache.spark.sql.expressions.UserDefinedFunction import org.apache.spark.sql.functions.udf impo

2023-08-01 00:03:04

使用 Apache DolphinScheduler 進行 EMR 任務調度

By AWS Team 前言隨着企業規模的擴大，業務數據的激增，我們會使用 Hadoop/Spark 框架來處理大量數據的 ETL/聚合分析作業，⽽這些作業將需要由統一的作業調度平臺去定時調度。在 Amazon EMR 中，可以使用

2023-07-26 21:20:14

地理!sadfafasfasdf!位置spark sql 範圍查詢 geo 類型查詢!!

你仍然可以通過在 Spark 中使用第三方庫來執行地理空間查詢。GeoSpark 是一個開源的 Spark 擴展庫，提供了對地理空間數據的索引、查詢和分析功能。你可以將 GeoSpark 添加到 Spark 項目的依賴中，並使用它提供的

2023-07-20 00:18:25

24小時熱門文章

最新文章

最新評論文章