scala中groupBy用在partition前面還是後面

要求：根據id分組，並對utc進行排序


    val conf = new SparkConf()
      .setAppName("flow")
      .setMaster("local[*]")
      .registerKryoClasses(Array[Class[_]](A.getClass, Trip.getClass, Line.getClass, Log.getClass, LogMinor.getClass, LogData.getClass, UnConformData.getClass, LineX.getClass, MatchDataMajor.getClass))

    val sparkSession = SparkSession.builder().config(conf).enableHiveSupport().getOrCreate()
    //正確的寫法  
    val list: List[A] = List(A(1, 234), A(1, 123), A(1, 345), A(1, 456))
    val data = sparkSession.sparkContext.parallelize(list.groupBy(_.uuid).toList) //在分片前面groupBy
    data.foreachPartition {
      partition =>
        partition.foreach(_._2.sortBy(_.utc).foreach(println))
    }
    /* 結果：
     A(1,123)
      A(1,234)
      A(1,345)
      A(1,456)*/

val conf = new SparkConf()
      .setAppName("flow")
      .setMaster("local[*]")
      .registerKryoClasses(Array[Class[_]](A.getClass, Trip.getClass, Line.getClass, Log.getClass, LogMinor.getClass, LogData.getClass, UnConformData.getClass, LineX.getClass, MatchDataMajor.getClass))

    val sparkSession = SparkSession.builder().config(conf).enableHiveSupport().getOrCreate()
    //錯誤的寫法
    val list: List[A] = List(A(1, 234), A(1, 123), A(1, 345), A(1, 456))
    val data = sparkSession.sparkContext.parallelize(list)

    val unit: Unit = data.foreachPartition {
      var num = 0
      partition =>  //在分片裏面進行的分區
        partition.toList.groupBy(_.uuid).map(_._2.sortBy(_.utc)).foreach(println)  
    }
    /**
      * 結果:
      * List(A(1,123))
      * List(A(1,234))
      * List(A(1,345))
      * List(A(1,456))
      */

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

scala中groupBy用在partition前面還是後面

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

Spark JDBC系列--取數的四種方式

streaming讀取kafka數據再保存到es7.7.0代碼及踩過的坑2

idea導入springBoot項目，lombok包報錯

scala寫spark讀取postgres數據庫寫入es中

根據日期字符串判斷當月第幾周

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結