動手實戰Spark Streaming Broadcast、Accumulator實現在線黑名單過濾和計數

1、自定義Receiver分析
2、自定義Receiver實戰

package com.tom.spark.SparkApps.sparkstreaming;

import java.util.Arrays;
import java.util.List;

import org.apache.hadoop.hive.ql.parse.HiveParser.ifExists_return;
import org.apache.spark.Accumulator;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.broadcast.Broadcast;
import org.apache.spark.streaming.Durations;
import org.apache.spark.streaming.Time;
import org.apache.spark.streaming.api.java.JavaPairDStream;
import org.apache.spark.streaming.api.java.JavaReceiverInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;

import scala.Tuple2;

public class SparkStreamingBroadcastAccumulator {

    private static volatile Broadcast<List<String>> broadcastList = null;
    private static volatile Accumulator<Integer> accumulator = null;

    /**
     * @param args
     */
    public static void main(String[] args) {
        // TODO Auto-generated method stub
        //好處：1、checkpoint 2、工廠
        SparkConf conf = new SparkConf().setAppName("SparkStreamingBroadcastAccumulator").setMaster("hdfs://Master:7077/");

        JavaStreamingContext javassc = new JavaStreamingContext(conf, Durations.seconds(15));
        //沒有action廣播不會發出
        //使用Broadcast廣播黑名單到每個Executor中
        broadcastList = javassc.sparkContext().broadcast(Arrays.asList("Hadoop","Mahout","Hive"));
        //全局計數器，用於統計在線過濾了多少個黑名單
        accumulator = javassc.sparkContext().accumulator(0, "OnlineBlacklistCounter");
        //創建Kafka元數據來讓Spark Streaming這個Kafka Consumer利用

        JavaReceiverInputDStream<String> lines = javassc.socketTextStream("Master", 9999);


        JavaPairDStream<String, Integer> pairs = lines.mapToPair(new PairFunction<String, String, Integer>() {

            public Tuple2<String, Integer> call(String t) throws Exception {
                // TODO Auto-generated method stub
                return new Tuple2<String, Integer>(t, 1);
            }
        });

        JavaPairDStream<String, Integer> wordsCount = pairs.reduceByKey(new Function2<Integer, Integer, Integer>(){
            //對相同的key，進行Value的累加（包括Local和Reducer級別同時Reduce）
            public Integer call(Integer v1, Integer v2) throws Exception {
                // TODO Auto-generated method stub
                return v1 + v2;
            }           
        });

        wordsCount.foreachRDD(new Function2<JavaPairRDD<String, Integer>, Time, Void>() {

            public Void call(JavaPairRDD<String, Integer> rdd, Time time)
                    throws Exception {
                // TODO Auto-generated method stub
                rdd.filter(new Function<Tuple2<String,Integer>, Boolean>() {    
                    public Boolean call(Tuple2<String, Integer> wordPair) throws Exception {
                        if(broadcastList.value().contains(wordPair._1)) {
                            accumulator.add(wordPair._2);
                            return false;
                        } else {
                            return true;
                        }
                    }
                }).collect();
                System.out.println(broadcastList.value().toString() + " : " + accumulator.value());
                return null;
            }           
        });

        wordsCount.print();

        /**
         * Spark Streaming 執行引擎也就是Driver開始運行，Driver啓動的時候是位於一條新的線程中的，當然其內部有消息循環體，用於
         * 接收應用程序本身或者Executor中的消息，
         */
        javassc.start();
        javassc.awaitTermination();
        javassc.close();
    }
}

tom_8899_li

發佈了125 篇原創文章 · 獲贊 5 · 訪問量 6萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大數據IMF傳奇行動絕密課程第103課：動手實戰Spark Streaming Broadcast、Accumulator實現在線黑名單過濾和計數

動手實戰Spark Streaming Broadcast、Accumulator實現在線黑名單過濾和計數

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

2020年上半年數據庫系統工程師考試

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

大數據IMF傳奇行動絕密課程第85課：基於HDFS的SparkStreaming案例實戰和內幕源碼解密

大數據IMF傳奇行動絕密課程第100-101課：使用Spark Streaming+Spark SQL+Kafka+FileSystem綜合案例

大數據IMF傳奇行動絕密課程第84課：圖解StreamingContext、DStream、Receiver並結合源碼分析

大數據IMF傳奇行動絕密課程第86課：SparkStreaming數據源Flume實際案例分享

大數據IMF傳奇行動絕密課程第97課：使用SparkStreaming+SparkSQL實現在線動態計算出特定時間窗口

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結