spark 使用aggregateByKey 代替groupbyKey

性能调优中有个方案，叫使用 aggregateBykey 代替 groupbykey，为啥呢？

应为aggregateByKe，使用map-side预聚合的shuffle操作，相当于再map端进行了聚合的操作，相当于mapreduce 中进行combiner

介绍一下aggregateBykey这个方法

这里面一共传了三个参数，这里用到了柯里化，我分别做一下参数介绍，教不懂的同学看下怎末看方法

zeroValue ：这是传个任意类型的初始值，他的类型U你要注意, 因为你最终返回的类型也必须是这个类型U

seqOp(U,Int) : 这个方法主要是做相同key再同一个partition 的聚合操作，两个参数(U,int) 第一个参数是你开始初始值U,第二个类型是数据的value的类型，返回类型为你定义的zeroValue 的类型

combOp : 根据key 对不同分区的数据进行一个聚合操作(也就是对seqOp的结果做合并操作)，连个参数(U,U)这两个的类型都是你的 seqOp返回类型，

这些信息其实都是可以从方法的定义中得到的，注意看下我上面的截图

使用 aggregateByKey 代替groupbyKey 的demo

  val data=List((1,3),(1,2),(1,4),(2,3))
    val rdd=sc.parallelize(data )
    //合并不同partition中的值，a，b得数据类型为zeroValue的数据类型
    def combOp(a:List[Int],b:List[Int]):List[Int] ={
      a ++ b
    }
    def seqOp(a:List[Int],b:Int):List[Int]={
        List(a(0)+b)
    }
 
    val aggregateByKeyRDD=rdd.aggregateByKey(List(0))(seqOp, combOp)
      aggregateByKeyRDD.foreach(println)
    val groupbykeyRDD=rdd.groupByKey()
     groupbykeyRDD.foreach(println)

这里是运行的结果，他们的都是一样的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

spark 使用aggregateByKey 代替groupbyKey

性能调优中有个方案，叫使用 aggregateBykey 代替 groupbykey，为啥呢？

介绍一下aggregateBykey这个方法

使用 aggregateByKey 代替groupbyKey 的demo

Android启动过程-万字长文(Android14)

【SQL进阶】CASE语句的使用

这种嵌套字典类型的数据，我想把它读取到df里，如何操作？

微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉

iNeuOS工业互联网操作系统，增加电力IEC104协议

微服务实践k8s&dapr开发部署实验（3）订阅发布

kbgressdb之数据结构V0.2

xjar 源碼流程分析

linux 安裝phantomJs 用於截圖，處理中文亂碼，和樣式問題

安裝redis 集羣

使用xjar 對Spring-Boot JAR 包加密運行工具，避免源碼泄露以及反編譯

JVM內存模型及垃圾回收

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

spark 使用aggregateByKey 代替groupbyKey

性能调优中有个方案， 叫使用 aggregateBykey 代替 groupbykey， 为啥呢？

介绍一下aggregateBykey这个方法

使用 aggregateByKey 代替groupbyKey 的demo

性能调优中有个方案，叫使用 aggregateBykey 代替 groupbykey，为啥呢？