Spark中DStream 輸出

輸出操作指定了對流數據經轉化操作得到的數據所要執行的操作(例如把結果推入外部數據庫或輸出到屏幕上)。與 RDD 中的惰性求值類似，如果一個 DStream 及其派生出的 DStream 都沒有被執行輸出操作，那麼這些 DStream 就都不會被求值。如果StreamingContext 中沒有設定輸出操作，整個 context 就都不會啓動。

輸出操作如下：

➢ print()：在運行流程序的驅動結點上打印 DStream 中每一批次數據的最開始 10 個元素。這用於開發和調試。在 Python API 中，同樣的操作叫 print()。

➢ saveAsTextFiles(prefix, [suffix])：以 text 文件形式存儲這個 DStream 的內容。每一批次的存儲文件名基於參數中的 prefix 和 suffix。”prefix-Time_IN_MS[.suffix]”。

➢ saveAsObjectFiles(prefix, [suffix])：以 Java 對象序列化的方式將 Stream 中的數據保存爲SequenceFiles . 每一批次的存儲文件名基於參數中的爲"prefix-TIME_IN_MS[.suffix]". Python中目前不可用。

➢ saveAsHadoopFiles(prefix, [suffix])：將 Stream 中的數據保存爲 Hadoop files. 每一批次的存儲文件名基於參數中的爲"prefix-TIME_IN_MS[.suffix]"。Python API 中目前不可用。

➢ foreachRDD(func)：這是最通用的輸出操作，即將函數 func 用於產生於 stream 的每一個RDD。其中參數傳入的函數 func 應該實現將每一個 RDD 中數據推送到外部系統，如將RDD 存入文件或者通過網絡將其寫入數據庫。

通用的輸出操作 foreachRDD()，它用來對 DStream 中的 RDD 運行任意計算。這和 transform()有些類似，都可以讓我們訪問任意 RDD。在 foreachRDD()中，可以重用我們在 Spark 中實現的所有行動操作。比如，常見的用例之一是把數據寫到諸如 MySQL 的外部數據庫中。

注意：

1) 連接不能寫在 driver 層面（序列化）

2) 如果寫在 foreach 則每個 RDD 中的每一條數據都創建，得不償失；

3) 增加 foreachPartition，在分區創建（獲取）。

package com.ljpbd.bigdata.spark.streaming

import com.ljpbd.bigdata.spark.Util.JdbcUtil
import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.dstream.{DStream, InputDStream}
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}
import org.apache.spark.streaming.{Seconds, StreamingContext}

import java.sql.{Connection, PreparedStatement, ResultSet}
import java.text.SimpleDateFormat
import java.util.Date
import scala.collection.mutable.ListBuffer

object SparkStreaming11_Req1BlockList {
  def main(args: Array[String]): Unit = {
    //1.創建 SparkConf
    val sparkConf: SparkConf = new
        SparkConf().setAppName("ReceiverWordCount").setMaster("local[*]")
    //2.創建 StreamingContext
    val ssc = new StreamingContext(sparkConf, Seconds(3))
    //3.定義 Kafka 參數
    val kafkaPara: Map[String, Object] = Map[String, Object](
      ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG ->
        "linux1:9092,linux2:9092,linux3:9092",
      ConsumerConfig.GROUP_ID_CONFIG -> "atguigu",
      "key.deserializer" ->
        "org.apache.kafka.common.serialization.StringDeserializer",
      "value.deserializer" ->
        "org.apache.kafka.common.serialization.StringDeserializer"
    )
    //4.讀取 Kafka 數據創建 DStream
    val kafkaDStream: InputDStream[ConsumerRecord[String, String]] =
      KafkaUtils.createDirectStream[String, String](ssc,
        LocationStrategies.PreferConsistent,
        ConsumerStrategies.Subscribe[String, String](Set("atguigu"), kafkaPara))
    //5.將每條消息的 KV 取出
    val adClickData: DStream[AdClickData] = kafkaDStream.map(
      kafkaData => {
        val data: String = kafkaData.value()
        val datas: Array[String] = data.split(" ")
        AdClickData(datas(0), datas(1), datas(2), datas(3), datas(4))
      }
    )
    //週期性獲取黑名單數據
    //判斷點擊用戶是否在黑名單中
    //如果用戶不在黑名單中，那麼進行統計數量(每個採集週期)
    val ds: DStream[((String, String, String), Int)] = adClickData.transform(
      rdd => {
        //通過jdbc週期性獲取黑名單數據
        val blackList = ListBuffer[String]()
        val connection: Connection = JdbcUtil.getConnection
        val pstat: PreparedStatement = connection.prepareStatement("select userid from black_list")
        val rs: ResultSet = pstat.executeQuery()
        while (rs.next()) {
          blackList.append(rs.getString(1))
        }
        rs.close()
        pstat.close()
        connection.close()
        val filterRdd: RDD[AdClickData] = rdd.filter(
          data => {
            //判斷點擊用戶是不是在黑名單中
            !blackList.contains(data.user)
          }
        )
        //如果用戶不在黑名單中，那麼進行統計數量(每個採集週期)
        filterRdd.map(
          data => {
            val sdf = new SimpleDateFormat("yyyy-MM-dd")
            val day = sdf.format(new Date(data.ts))
            val user = data.user
            val ad = data.ad
            ((day, user, ad), 1)
          }
        ).reduceByKey(_ + _)
      }
    )


    ds.foreachRDD(
      rdd => {
        //rdd.foreach會每一條數據創建連接
        /*
        foreach是rdd的算子，算子之外的代碼是在driver端執行，算子之內的代碼是在executor執行
        ，可以將對象從driver傳輸到executor，這樣就會涉及到閉包操作，需要將數據序列化
        但是數據庫連接對象是不能序列化的
        val conn: Connection = JdbcUtil.getConnection
         rdd提供了一個算子可以有效提供效率，foreachPartition
         可以一個分區創建一個連接對象，這樣就可以大幅度減少連接對象的創建
         */
        /*        rdd.foreachPartition(
                  iter=>{
                    val conn: Connection = JdbcUtil.getConnection
                    conn.close()
                  }
                )*/
        rdd.foreach {
          case ((day, user, ad), count) => {
            println(s"${day} ${user} ${ad} ${count}")
            if (count >= 30) {
              //如果統計數量超過點擊域值，那麼將用戶拉入到黑名單中
              val conn: Connection = JdbcUtil.getConnection
              var sql =
                """
                  |insert into black_list(userid) values(?)
                  |on DUPLICATE KEY
                  |UPDATE userid = ?
                  |""".stripMargin

              JdbcUtil.executeUpdate(conn, sql, Array(user, user))
              conn.close()

            } else {
              //如果沒有超過域值，那麼需要將當天的廣告點擊數量進行更新，
              val conn: Connection = JdbcUtil.getConnection
              val sql =
                """
                  |select * from user_ad_count where dt=? and userid=? and adid=?
                  |""".stripMargin
              //查詢統計表數據

              var flag = JdbcUtil.isExist(conn, sql, Array(day, user, ad))
              //如果存在數據，則更新
              if (flag) {

                val sql1 =
                  """
                    |update user_ad_count
                    |set count=count+?
                    |where dt=? and userid=? and adid=?
                    |""".stripMargin
                JdbcUtil.executeUpdate(conn, sql1, Array(count, day, user, ad))
                //判斷更新後的點擊數量是否超過域值，如果超過，那麼將用戶拉入到黑名單中
                val sql2 =
                  """
                    |select * from user_ad_count
                    |where dt=? and userid=? and adid=? and count>=30
                    |""".stripMargin

                var flag1 = JdbcUtil.isExist(conn, sql2, Array(day, user, ad))
                if (flag1) {
                  val sql3 =
                    """
                      |insert into black_list(userid) values(?)
                      |on DUPLICATE KEY
                      |UPDATE userid = ?
                      |""".stripMargin
                  JdbcUtil.executeUpdate(conn, sql3, Array(user, user))
                }

              } else {
                //如果不存在數據，那麼新增
                val sql4 =
                  """
                    |insert into user_ad_count(dt,userid,adid,count) values(?,?,?,?)
                    |""".stripMargin
                JdbcUtil.executeUpdate(conn, sql4, Array(day, user, ad, count))
              }

              conn.close()

            }
          }
        }
      }
    )
    //7.開啓任務
    ssc.start()
    ssc.awaitTermination()
  }

  //廣告點擊數據
  case class AdClickData(ts: String, area: String, city: String, user: String, ad: String)
}

Spark中DStream 輸出

RDD 任務劃分

Spark中RDD階段劃分

glom用法

mapPartition與map函數

Spark Streaming程序優雅關閉

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結