spark: rdd的應用(java api)

原創

2018-10-13 07:41

wordcount: 統計詞頻，排序 (jdk7, jdk8-lambda表達式)
歷年溫度最值： max, min, avg

<!--maven依賴 -->
	<dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.0</version>
        </dependency>

jdk8 : lambda表達式

idea中添加maven jdk8構建依賴

     <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <configuration>
                    <source>8</source>
                    <target>8</target>
                </configuration>
            </plugin>
        </plugins>
    </build>

  public static void main(String[] args){
        //conf
        SparkConf conf = new SparkConf();
        conf.setMaster("local");
        conf.setAppName("wc");

        //context
        JavaSparkContext context = new JavaSparkContext(conf);
        JavaRDD<String> rdd1 = context.textFile("/home/wang/txt/word.txt");
        
        //lambda: 表達式
        JavaRDD<String> rdd2 = rdd1.flatMap(s -> Arrays.asList(s.split(" ")).iterator());
        JavaPairRDD<String, Integer> rdd3 = rdd2.mapToPair(s -> new Tuple2<String, Integer>(s, 1));
        JavaPairRDD<String, Integer> rdd4 = rdd3.reduceByKey((x, y) -> x + y);

        //按單詞升序
        List<Tuple2<String, Integer>> list1 = rdd4.sortByKey(true).collect();
        //按詞頻降序
        JavaPairRDD<String, Integer> rdd5 = rdd4.mapToPair(x -> new Tuple2<Integer, String>(x._2, x._1))
                .sortByKey()
                .mapToPair(x -> new Tuple2<String, Integer>(x._2, x._1));
        List<Tuple2<String, Integer>> list2 = rdd5.collect();
    }

jdk7 : spark api

public static void main(String[] args){
        //conf, context........     同上 
        //1, a b c ===> split( ) : string[] {a,b,c}
        JavaRDD<String> rdd2 = rdd1.flatMap(new FlatMapFunction<String, String>() {
            public Iterator<String> call(String s) throws Exception {
                String[] arr = s.split(" ");
                return Arrays.asList(arr).iterator();
            }
        });

        //2, string[] {a,b,c}==>(a,1),(b,1)
        JavaPairRDD<String, Integer> rdd3 = rdd2.mapToPair(new PairFunction<String, String, Integer>() {
            public Tuple2<String, Integer> call(String s) throws Exception {
                return new Tuple2<String, Integer>(s, 1);
            }
        }).filter(new Function<Tuple2<String, Integer>, Boolean>() {//過濾空字符
            public Boolean call(Tuple2<String, Integer> v1) throws Exception {
                return v1._1.trim().length()>0 ;
            }
        });

        //3, (a,1),(b,1) ==> reduceByKey: (a,4), (b,3)
        JavaPairRDD<String, Integer> rdd4 = rdd3.reduceByKey(new Function2<Integer, Integer, Integer>() {
            public Integer call(Integer v1, Integer v2) throws Exception {
                return v1+v2;
            }
        });

        //4.1 排序（ 字母生序）
        JavaPairRDD<String, Integer> rddRes = rdd4.sortByKey();
        List<Tuple2<String, Integer>> list1 = rddRes.collect();

        //4.2排序( 詞頻降序)
        JavaPairRDD<Integer, String> sortRdd1 = rdd4.mapToPair(new PairFunction<Tuple2<String, Integer>, Integer, String>() {
            public Tuple2<Integer, String> call(Tuple2<String, Integer> tup) throws Exception {
                return new Tuple2<Integer, String>(tup._2, tup._1);
            }
        });
        JavaPairRDD<String, Integer> sortRdd2 = sortRdd1.sortByKey(false).mapToPair(new PairFunction<Tuple2<Integer, String>, String, Integer>() {
            public Tuple2<String, Integer> call(Tuple2<Integer, String> tup) throws Exception {
                return new Tuple2<String, Integer>(tup._2, tup._1);
            }
        });
        List<Tuple2<String, Integer>> list2 = sortRdd2.collect();
    }

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

spark: rdd的應用(java api)

jdk8 : lambda表達式

jdk7 : spark api

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

Dokcer部署Kafka集羣

【Linux命令學習】lsof查看打開的文件

hadoop系列： spark 訪問hive表報錯

redis: 初步使用&集羣搭建

樸素貝葉斯分類：使用案例

推薦算法：基於物品的協同過濾算法

推薦算法：基於用戶的協同過濾算法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結