讨论Spark中RDD四种转换聚合算子的区别(源码角度)

首先,让我们先思考一个问题:reduceByKey、foldByKey、aggregateByKey、combineByKey的区别?

解释: 1.reduceByKey: 相同key的第一个数据不进行任何计算,分区内和分区间计算规则相同

2.foldByKey: 相同key的第一个数据和初始值进行分区内计算,分区内和分区间计算规则相同

3.AggregateByKey:相同key的第一个数据和初始值进行分区内计算,分区内和分区间计算规则可以不相同

4.CombineByKey:当计算时,发现数据结构不满足要求时,可以让第一个数据转换结构。分区内和分区间计算规则不相同

为了更直白的进行解释,取出了部分源码,并做了直白的操作(删减了一些没有影响到的源码)

注意下面源码只是为了易懂进行了备注,实际情况需要实际了解—>>> 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述 根据上述简化的源码可以分析得到,其实这四种聚合算子底层的实现都是combineByKey,只是其中的参数发生了系统的变化,目的是为了实现多个计算场景

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章