之前我們寫過簡答的worldcount統計的代碼,但是我們如何做到按照value來排序呢??
僞代碼如下
// 執行我們之前做過的單詞計數
JavaRDD<String> lines=line.flatMap(new FlatMapFunction<String, String>() {
@Override
public Iterable<String> call(String s) throws Exception {
return Arrays.asList(s.split(" "));
}
});
JavaPairRDD<String,Integer> pair=lines.mapToPair(new PairFunction<String, String, Integer>() {
@Override
public Tuple2<String, Integer> call(String s) throws Exception {
return new Tuple2<String,Integer>(s,1);
}
});
JavaPairRDD<String,Integer> pairs= pair.reduceByKey(new Function2<Integer, Integer, Integer>() {
@Override
public Integer call(Integer v1, Integer v2) throws Exception {
return v1+v2;
}
});
// 到這裏爲止,就得到了每個單詞出現的次數
// 但是,問題是,我們的新需求,是要按照每個單詞出現次數的順序,降序排序
// wordCounts RDD內的元素是什麼?應該是這種格式的吧:(hello, 3) (you, 2)
// 我們需要將RDD轉換成(3, hello) (2, you)的這種格式,才能根據單詞出現次數進行排序把!
// 進行key-value的反轉映射
JavaPairRDD<Integer,String> pa=pairs.mapToPair(new PairFunction<Tuple2<String,Integer>, Integer, String>() {
@Override
public Tuple2<Integer, String> call(Tuple2<String, Integer> s) throws Exception {
return new Tuple2<Integer, String>(s._2,s._1);
}
});
// 按照key進行排序
JavaPairRDD<Integer,String> pas= pa.sortByKey(false);
// 再次將value-key進行反轉映射
JavaPairRDD<String,Integer> psa=pas.mapToPair(new PairFunction<Tuple2<Integer,String>, String, Integer>() {
@Override
public Tuple2<String, Integer> call(Tuple2<Integer, String> s) throws Exception {
return new Tuple2<String,Integer>(s._2,s._1);
}
});
psa.foreach(new VoidFunction<Tuple2<String, Integer>>() {
@Override
public void call(Tuple2<String, Integer> s) throws Exception {
System.out.println("key:"+s._1+" vlaues is "+s._2);
}
});