讨论Spark中RDD四种转换聚合算子的区别（源码角度）

原創

2021-02-22 09:32

首先，让我们先思考一个问题：reduceByKey、foldByKey、aggregateByKey、combineByKey的区别？

解释： 1.reduceByKey: 相同key的第一个数据不进行任何计算，分区内和分区间计算规则相同

2.foldByKey: 相同key的第一个数据和初始值进行分区内计算，分区内和分区间计算规则相同

3.AggregateByKey：相同key的第一个数据和初始值进行分区内计算，分区内和分区间计算规则可以不相同

4.CombineByKey:当计算时，发现数据结构不满足要求时，可以让第一个数据转换结构。分区内和分区间计算规则不相同

为了更直白的进行解释，取出了部分源码，并做了直白的操作（删减了一些没有影响到的源码）

注意下面源码只是为了易懂进行了备注，实际情况需要实际了解—>>> 根据上述简化的源码可以分析得到，其实这四种聚合算子底层的实现都是combineByKey,只是其中的参数发生了系统的变化，目的是为了实现多个计算场景

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

界面组件DevExpress Reporting中文教程 - 如何按条件显示页面水印？

DevExpress Reporting是.NET Framework下功能完善的報表平臺，它附帶了易於使用的Visual Studio報表設計器和豐富的報表控件集，包括數據透視表、圖表，因此您可以構建無與倫比、信息清晰的報表。從防止未經

2024-05-08 11:36:34

给picgo上传的图片加个水印

之前給大家介紹了picgo和免費的圖牀神器。我們本可以開開心心的進行markdown寫作了。但是總是會有那麼一些爬蟲網站過來爬你的文章，還把你的文章標明是他們的原著。咋辦呢？這裏有一個好的辦法就是把markdown中上傳的圖片加上自己的水

2024-04-16 21:30:57

如何将个人 NAS 里的 Stable Diffusion 模型库挂载到 PAI-EAS

通過在線遷移服務，您已經將SD公共模型庫的模型文件轉存到了自己的NAS文件目錄中，該存儲空間中的模型可以被用於SDWebUI，另外也可以將未來訓練和推理的結果保存到該NAS目錄中。您可以通過如下文件掛載方式來實現。 1.前往文件存儲NAS

2023-08-09 00:20:15

fooocus风格对照表 SDXL风格对照表

英文中文 cinematic-default 電影風格默認 sai-3d-model Sai三維模型 sai-analog film Sai模擬膠片 sai-anime Sai動畫 sai-cinematic

2023-08-25 09:31:27

Apache DolphinScheduler 3.1.9 版本发布：提升系统的稳定性和性能

🚀我們很高興宣佈，Apache DolphinScheduler 的最新版本 3.1.9 已正式發佈！此版本在 3.1.8 的基礎上進行了關鍵的 bug 修復和文檔更新，共計修復了 14 個 bug 和改進了 3 個文檔。主要更新亮點

2023-12-28 21:27:33

Koordinator 助力云原生应用性能提升：小红书混部技术实践

編者按： Koordinator 是一個開源項目，是基於阿里巴巴內部多年容器調度、混部實踐經驗孵化誕生，是行業首個生產可用、面向大規模場景的開源混部系統，致力於提升應用服務質量，優化資源使用效率。自 2022 年 4 月正式開源以來，吸

2023-12-06 01:15:02

云原生场景下月省 10 万元资源成本，这家企业做对了什么

相信近期從事基礎設施工作的各位，對 IT 成本治理，以及 FinOps 體系的概念已經有了一些認知。在 Google 近 5 年的熱度趨勢中，FinOps 的趨勢也在持續上升。在阿里雲的同學與客戶實際工作協同中，我們發現成本治理是幾乎每位

2023-12-01 01:10:35

米哈游大数据云原生实践

近年來，容器、微服務、Kubernetes 等各項雲原生技術的日漸成熟，越來越多的公司開始選擇擁抱雲原生，並開始將 AI、大數據等類型的企業應用部署運行在雲原生之上。以 Spark 爲例，在雲上運行 Spark 可以充分享有公共雲的彈性資源

2023-11-23 00:39:26

Koordinator 支持 K8s 与 YARN 混部，小红书在离线混部实践分享

背景介紹 Koordinator 是一個開源項目，基於阿里巴巴在容器調度領域多年累積的經驗孵化誕生，目前已經支持了 K8s 生態內的在離線混部，然而在 K8s 生態外，仍有相當數量的用戶會將大數據任務運行在 Apache Hadoop Y

2023-11-17 01:57:57

Hago 的 Spark on ACK 实践

Hago 於 2018 年 4 月上線，是歡聚集團旗下的一款多人互動社交明星產品。Hago 融合優質的匹配能力和多樣化的垂類場景，提供互動遊戲、多人語音、視頻直播、 3D 虛擬形象互動等多種社交玩法，致力於爲用戶打造高效、多樣、最具沉浸式的

2023-11-17 01:57:56

datax 并发写入问题解决？

問題描述：https://my.oschina.net/xiaominmin/blog/10111950 OriginalConfPretreatmentUtil - 您的配置有誤. 由於您讀取數據庫表採用了querySql的方式, 所以

2023-10-08 00:01:55

MaxCompute 发布按量付费闲时版，计算成本最高节省66.66%！

什麼是按量付費閒時版開通MaxCompute按量付費閒時版，意味着用戶可以使用MaxCompute閒時計算資源（os_SpotQuota），它是一種共享型按量付費計算資源，閒時計算資源池與按量付費標準版計算資源共享，與包年包月計算資源隔

2023-08-17 00:29:28

spark sql 内置函数不支持在内部写spark sql代码

%spark import org.apache.spark.sql.expressions.UserDefinedFunction import org.apache.spark.sql.functions.udf impo

2023-08-01 00:03:04

使用 Apache DolphinScheduler 进行 EMR 任务调度

By AWS Team 前言隨着企業規模的擴大，業務數據的激增，我們會使用 Hadoop/Spark 框架來處理大量數據的 ETL/聚合分析作業，⽽這些作業將需要由統一的作業調度平臺去定時調度。在 Amazon EMR 中，可以使用

2023-07-26 21:20:14

地理!sadfafasfasdf!位置spark sql 范围查询 geo 类型查询!!

你仍然可以通過在 Spark 中使用第三方庫來執行地理空間查詢。GeoSpark 是一個開源的 Spark 擴展庫，提供了對地理空間數據的索引、查詢和分析功能。你可以將 GeoSpark 添加到 Spark 項目的依賴中，並使用它提供的

2023-07-20 00:18:25

24小時熱門文章

最新文章

最新評論文章