Spark排序--交換排序

之前我們寫過簡答的worldcount統計的代碼,但是我們如何做到按照value來排序呢??
僞代碼如下

    // 執行我們之前做過的單詞計數
        JavaRDD<String> lines=line.flatMap(new FlatMapFunction<String, String>() {
            @Override
            public Iterable<String> call(String s) throws Exception {
                return Arrays.asList(s.split(" "));
            }
        });
        JavaPairRDD<String,Integer> pair=lines.mapToPair(new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String s) throws Exception {
                return new Tuple2<String,Integer>(s,1);
            }
        });

       JavaPairRDD<String,Integer> pairs= pair.reduceByKey(new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer v1, Integer v2) throws Exception {
                return v1+v2;
            }
        });
        // 到這裏爲止,就得到了每個單詞出現的次數
        // 但是,問題是,我們的新需求,是要按照每個單詞出現次數的順序,降序排序
        // wordCounts RDD內的元素是什麼?應該是這種格式的吧:(hello, 3) (you, 2)
        // 我們需要將RDD轉換成(3, hello) (2, you)的這種格式,才能根據單詞出現次數進行排序把!

        // 進行key-value的反轉映射
       JavaPairRDD<Integer,String> pa=pairs.mapToPair(new PairFunction<Tuple2<String,Integer>, Integer, String>() {
           @Override
           public Tuple2<Integer, String> call(Tuple2<String, Integer> s) throws Exception {
               return new Tuple2<Integer, String>(s._2,s._1);
           }
       });
        // 按照key進行排序
        JavaPairRDD<Integer,String> pas= pa.sortByKey(false);
        // 再次將value-key進行反轉映射
        JavaPairRDD<String,Integer> psa=pas.mapToPair(new PairFunction<Tuple2<Integer,String>, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(Tuple2<Integer, String> s) throws Exception {
                return new Tuple2<String,Integer>(s._2,s._1);
            }
        });
        psa.foreach(new VoidFunction<Tuple2<String, Integer>>() {
            @Override
            public void call(Tuple2<String, Integer> s) throws Exception {
                System.out.println("key:"+s._1+" vlaues is "+s._2);
            }
        });
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章