第96課：通過Spark Streaming的foreachRDD把處理後的數據寫入外部存儲系統中

本期內容

技術實現解析
實現實戰

SparkStreaming的DStream提供了一個dstream.foreachRDD方法，該方法是一個功能強大的原始的API，它允許將數據發送到外部系統。然而,重要的是要了解如何正確有效地使用這種原始方法。一些常見的錯誤,以避免如下：

寫數據到外部系統，需要建立一個數據連接對象（例如TCP連接到遠程的服務器），使用它將數據發送到外部存儲系統。爲此開發者可能會在Driver中嘗試創建一個連接，然後在worker中使用它來保存記錄到外部數據。例如如下scala代碼：

dstream.foreachRDD { rdd =>
  val connection = createNewConnection()  // executed at the driver
  rdd.foreach { record =>
    connection.send(record) // executed at the worker
  }}

上面的代碼是一個錯誤的演示，因爲連接是在Driver中創建的，而寫數據是在worker中完成的。此時連接就需要被序列化然後發送到worker中。但是我們知道，連接的信息是不能被序列化和發序列化的（不同的機器連接服務器需要使用不同的服務器端口，即便連接被序列化了也不能使用）

進而我們可以將連接移動到worker中實現，代碼如下：

dstream.foreachRDD { rdd =>
  rdd.foreach { record =>
    val connection = createNewConnection()
    connection.send(record)
    connection.close()
  }}

但是此時，每處理一條數據記錄，就需要連接一次外部系統，對於性能來說是個嚴重的問題。這也不是一個完美的實現。

我們可以將代碼做如下的改進：

dstream.foreachRDD { rdd =>
  rdd.foreachPartition { partitionOfRecords =>
    val connection = createNewConnection()
    partitionOfRecords.foreach(record => connection.send(record))
    connection.close()
  }}

這樣一個partition，只需連接一次外部存儲。性能上有大幅度的提高。但是不同的partition之間不能複用連接。我們可以使用連接池的方式，使得partition之間可以共享連接。代碼如下：

dstream.foreachRDD { rdd =>
  rdd.foreachPartition { partitionOfRecords =>
    // ConnectionPool is a static, lazily initialized pool of connections
    val connection = ConnectionPool.getConnection()
    partitionOfRecords.foreach(record => connection.send(record))
    ConnectionPool.returnConnection(connection)  // return to the pool for future reuse
  }}

下面我們使用SparkStreaming實現將數據寫到MySQL中：

在pom.xml中加入如下依賴包

<dependency>
    <groupId>mysql</groupId>
    <artifactId>mysql-connector-java</artifactId>
    <version>5.1.38</version>
</dependency>
<dependency>
    <groupId>commons-dbcp</groupId>
    <artifactId>commons-dbcp</artifactId>
    <version>1.4</version>
</dependency>

在MySql中創建數據庫和表

mysql> create database spark;
Query OK, 1 row affected (0.01 sec)

mysql> use spark;
Database changed
mysql> show tables;
Empty set (0.01 sec)

mysql> create table searchKeyWord(insert_time date,keyword varchar(30),search_count integer);
Query OK, 0 rows affected (0.05 sec)

使用Java編寫一個數據庫連接池類

package com.dt.spark.common;

import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.ResultSet;

import org.apache.commons.dbcp.BasicDataSource;
import org.apache.log4j.Logger;

/**
 * Description: 數據庫連接池類
 * @author dinglq
 */
public class ConnectPool {
    private static Logger log = Logger.getLogger(ConnectPool.class);
    private static BasicDataSource bs = null;

    /**
     * 創建數據源
     * @return
     */
    public static BasicDataSource getDataSource() throws Exception{
        if(bs==null){
            bs = new BasicDataSource();
            bs.setDriverClassName("com.mysql.jdbc.Driver");
            bs.setUrl("jdbc:mysql://spark-master:3306/spark");
            bs.setUsername("root");
            bs.setPassword("vincent");
            bs.setMaxActive(200);//設置最大併發數
            bs.setInitialSize(30);//數據庫初始化時，創建的連接個數
            bs.setMinIdle(50);//最小空閒連接數
            bs.setMaxIdle(200);//數據庫最大連接數
            bs.setMaxWait(1000);
            bs.setMinEvictableIdleTimeMillis(60*1000);//空閒連接60秒中後釋放
            bs.setTimeBetweenEvictionRunsMillis(5*60*1000);//5分鐘檢測一次是否有死掉的線程
            bs.setTestOnBorrow(true);
        }
        return bs;
    }

    /**
     * 釋放數據源
     */
    public static void shutDownDataSource() throws Exception{
        if(bs!=null){
            bs.close();
        }
    }

    /**
     * 獲取數據庫連接
     * @return
     */
    public static Connection getConnection(){
        Connection con=null;
        try {
            if(bs!=null){
                con=bs.getConnection();
            }else{
                con=getDataSource().getConnection();
            }
        } catch (Exception e) {
            log.error(e.getMessage(), e);
        }
        return con;
    }

    /**
     * 關閉連接
     */
    public static void closeCon(ResultSet rs,PreparedStatement ps,Connection con){
        if(rs!=null){
            try {
                rs.close();
            } catch (Exception e) {
                log.error("關閉結果集ResultSet異常！"+e.getMessage(), e);
            }
        }
        if(ps!=null){
            try {
                ps.close();
            } catch (Exception e) {
                log.error("預編譯SQL語句對象PreparedStatement關閉異常！"+e.getMessage(), e);
            }
        }
        if(con!=null){
            try {
                con.close();
            } catch (Exception e) {
                log.error("關閉連接對象Connection異常！"+e.getMessage(), e);
            }
        }
    }
}

編寫Spark代碼：

package com.dt.spark.streaming

import com.dt.spark.common.ConnectPool
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}


/**
 * 以網站熱詞排名爲例，將處理結果寫到MySQL中
 * Created by dinglq on 2016/5/3.
 */
object WriteDataToMySQL {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("WriteDataToMySQL")
    val ssc = new StreamingContext(conf,Seconds(5))
    // 假設socket輸入的數據格式爲：searchKeyword,time
    val ItemsStream = ssc.socketTextStream("spark-master",9999)
    // 將輸入數據變成(searchKeyword,1)
    var ItemPairs = ItemsStream.map(line =>(line.split(",")(0),1))

     val ItemCount = ItemPairs.reduceByKeyAndWindow((v1:Int,v2:Int)=> v1+v2,Seconds(60),Seconds(10))
    //ssc.checkpoint("/user/checkpoints/")
    // val ItemCount = ItemPairs.reduceByKeyAndWindow((v1:Int,v2:Int)=> v1+v2,(v1:Int,v2:Int)=> v1-v2,Seconds(60),Seconds(10))
    /**
     * 接下來需要對熱詞的頻率進行排序，而DStream沒有提供sort的方法。那麼我們可以實現transform函數，用RDD的sortByKey實現
     */
    val hottestWord = ItemCount.transform(itemRDD => {
      val top3 = itemRDD.map(pair => (pair._2, pair._1))
        .sortByKey(false).map(pair => (pair._2, pair._1)).take(3)
      ssc.sparkContext.makeRDD(top3)
    })

    hottestWord.foreachRDD(rdd => {
      rdd.foreachPartition(partitionOfRecords =>{
        val conn = ConnectPool.getConnection
        conn.setAutoCommit(false);  //設爲手動提交
        val  stmt = conn.createStatement();

        partitionOfRecords.foreach( record => {

          stmt.addBatch("insert into searchKeyWord (insert_time,keyword,search_count) values (now(),'"+record._1+"','"+record._2+"')");
        })

        stmt.executeBatch();
        conn.commit();  //提交事務

      })
    })

    ssc.start()
    ssc.awaitTermination()
    ssc.stop()

  }
}

打開netcat發送數據

root@spark-master:~# nc -lk 9999
hadoop,1111
spark,2222
spark,3333
hadoop,1111
spark,2222
spark,3333
hadoop,1111
spark,2222
spark,3333
hadoop,1111
spark,2222
spark,3333

運行spark代碼

root@spark-master:~# /usr/local/spark/spark-1.6.0-bin-hadoop2.6/bin/spark-submit --class com.dt.spark.streaming.WriteDataToMySQL  --jars=mysql-connector-java-5.1.38.jar,commons-dbcp-1.4.jar ./spark.jar

查看數據庫中的結果：

mysql> select * from searchKeyWord;
+-------------+---------+--------------+
| insert_time | keyword | search_count |
+-------------+---------+--------------+
| 2016-05-03  | spark   |            4 |
| 2016-05-03  | hadoop  |            2 |
| 2016-05-03  | spark   |            4 |
| 2016-05-03  | hadoop  |            2 |
+-------------+---------+--------------+
4 rows in set (0.00 sec)

備註：

1、DT大數據夢工廠微信公衆號DT_Spark
2、IMF晚8點大數據實戰YY直播頻道號：68917580
3、新浪微博: http://www.weibo.com/ilovepains

第96課：通過Spark Streaming的foreachRDD把處理後的數據寫入外部存儲系統中

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

第35講：List的map、flatMap、foreach、filter操作代碼實戰

第42講：Scala中泛型類、泛型函數、泛型在Spark中的廣泛應用

第40講：Set、Map、TreeSet、TreeMap操作代碼實戰

第53課：Hive 第一課：Hive的價值、Hive的架構設計簡介

第36講：List的partition、find、takeWhile、dropWhile、span、forall、exsists操作代碼實戰

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

第96課： 通過Spark Streaming的foreachRDD把處理後的數據寫入外部存儲系統中

第96課：通過Spark Streaming的foreachRDD把處理後的數據寫入外部存儲系統中