前言

在WeTest輿情項目中，需要對每天千萬級的遊戲評論信息進行詞頻統計，在生產者一端，我們將數據按照每天的拉取時間存入了Kafka當中，而在消費者一端，我們利用了spark streaming從kafka中不斷拉取數據進行詞頻統計。本文首先對spark streaming嵌入kafka的方式進行歸納總結，之後簡單闡述Spark streaming+kafka在輿情項目中的應用，最後將自己在Spark Streaming+kafka的實際優化中的一些經驗進行歸納總結。（如有任何紕漏歡迎補充來踩，我會第一時間改正^v^）

Spark streaming接收Kafka數據

用spark streaming流式處理kafka中的數據，第一步當然是先把數據接收過來，轉換爲spark streaming中的數據結構Dstream。接收數據的方式有兩種：1.利用Receiver接收數據，2.直接從kafka讀取數據。

基於Receiver的方式

這種方式利用接收器（Receiver）來接收kafka中的數據，其最基本是使用Kafka高階用戶API接口。對於所有的接收器，從kafka接收來的數據會存儲在spark的executor中，之後spark streaming提交的job會處理這些數據。如下圖：

在使用時，我們需要添加相應的依賴包：

<dependency><!-- Spark Streaming Kafka -->
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-kafka_2.10</artifactId>
    <version>1.6.3</version>
</dependency>

而對於Scala的基本使用方式如下：

import org.apache.spark.streaming.kafka._

 val kafkaStream = KafkaUtils.createStream(streamingContext, 
     [ZK quorum], [consumer group id], [per-topic number of Kafka partitions to consume])

還有幾個需要注意的點：

在Receiver的方式中，Spark中的partition和kafka中的partition並不是相關的，所以如果我們加大每個topic的partition數量，僅僅是增加線程來處理由單一Receiver消費的主題。但是這並沒有增加Spark在處理數據上的並行度。
對於不同的Group和topic我們可以使用多個Receiver創建不同的Dstream來並行接收數據，之後可以利用union來統一成一個Dstream。
如果我們啓用了Write Ahead Logs複製到文件系統如HDFS，那麼storage level需要設置成 StorageLevel.MEMORY_AND_DISK_SER，也就是KafkaUtils.createStream(..., StorageLevel.MEMORY_AND_DISK_SER)

直接讀取方式

在spark1.3之後，引入了Direct方式。不同於Receiver的方式，Direct方式沒有receiver這一層，其會週期性的獲取Kafka中每個topic的每個partition中的最新offsets，之後根據設定的maxRatePerPartition來處理每個batch。其形式如下圖：

這種方法相較於Receiver方式的優勢在於：

簡化的並行：在Receiver的方式中我們提到創建多個Receiver之後利用union來合併成一個Dstream的方式提高數據傳輸並行度。而在Direct方式中，Kafka中的partition與RDD中的partition是一一對應的並行讀取Kafka數據，這種映射關係也更利於理解和優化。
高效：在Receiver的方式中，爲了達到0數據丟失需要將數據存入Write Ahead Log中，這樣在Kafka和日誌中就保存了兩份數據，浪費！而第二種方式不存在這個問題，只要我們Kafka的數據保留時間足夠長，我們都能夠從Kafka進行數據恢復。
精確一次：在Receiver的方式中，使用的是Kafka的高階API接口從Zookeeper中獲取offset值，這也是傳統的從Kafka中讀取數據的方式，但由於Spark Streaming消費的數據和Zookeeper中記錄的offset不同步，這種方式偶爾會造成數據重複消費。而第二種方式，直接使用了簡單的低階Kafka API，Offsets則利用Spark Streaming的checkpoints進行記錄，消除了這種不一致性。

以上主要是對官方文檔[1]的一個簡單翻譯，詳細內容大家可以直接看下官方文檔這裏不再贅述。

不同於Receiver的方式，是從Zookeeper中讀取offset值，那麼自然zookeeper就保存了當前消費的offset值，那麼如果重新啓動開始消費就會接着上一次offset值繼續消費。而在Direct的方式中，我們是直接從kafka來讀數據，那麼offset需要自己記錄，可以利用checkpoint、數據庫或文件記錄或者回寫到zookeeper中進行記錄。這裏我們給出利用Kafka底層API接口，將offset及時同步到zookeeper中的通用類，我將其放在了github上：
Spark streaming+Kafka demo
示例中KafkaManager是一個通用類，而KafkaCluster是kafka源碼中的一個類，由於包名權限的原因我把它單獨提出來，ComsumerMain簡單展示了通用類的使用方法，在每次創建KafkaStream時，都會先從zooker中查看上次的消費記錄offsets，而每個batch處理完成後，會同步offsets到zookeeper中。

Spark向kafka中寫入數據

上文闡述了Spark如何從Kafka中流式的讀取數據，下面我整理向Kafka中寫數據。與讀數據不同，Spark並沒有提供統一的接口用於寫入Kafka，所以我們需要使用底層Kafka接口進行包裝。
最直接的做法我們可以想到如下這種方式：

input.foreachRDD(rdd =>
  // 不能在這裏創建KafkaProducer
  rdd.foreachPartition(partition =>
    partition.foreach{
      case x:String=>{
        val props = new HashMap[String, Object]()
        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, brokers)
        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,
          "org.apache.kafka.common.serialization.StringSerializer")
        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,
          "org.apache.kafka.common.serialization.StringSerializer")
        println(x)
        val producer = new KafkaProducer[String,String](props)
        val message=new ProducerRecord[String, String]("output",null,x)
        producer.send(message)
      }
    }
  )
)

但是這種方式缺點很明顯，對於每個partition的每條記錄，我們都需要創建KafkaProducer，然後利用producer進行輸出操作，注意這裏我們並不能將KafkaProducer的新建任務放在foreachPartition外邊，因爲KafkaProducer是不可序列化的（not serializable）。顯然這種做法是不靈活且低效的，因爲每條記錄都需要建立一次連接。如何解決呢？

首先，我們需要將KafkaProducer利用lazy val的方式進行包裝如下：

import java.util.concurrent.Future
import org.apache.kafka.clients.producer.{ KafkaProducer, ProducerRecord, RecordMetadata }
class KafkaSink[K, V](createProducer: () => KafkaProducer[K, V]) extends Serializable {
  /* This is the key idea that allows us to work around running into
     NotSerializableExceptions. */
  lazy val producer = createProducer()
  def send(topic: String, key: K, value: V): Future[RecordMetadata] =
    producer.send(new ProducerRecord[K, V](topic, key, value))
  def send(topic: String, value: V): Future[RecordMetadata] =
    producer.send(new ProducerRecord[K, V](topic, value))
}

object KafkaSink {
  import scala.collection.JavaConversions._
  def apply[K, V](config: Map[String, Object]): KafkaSink[K, V] = {
    val createProducerFunc = () => {
      val producer = new KafkaProducer[K, V](config)
      sys.addShutdownHook {
        // Ensure that, on executor JVM shutdown, the Kafka producer sends
        // any buffered messages to Kafka before shutting down.
        producer.close()
      }
      producer
    }
    new KafkaSink(createProducerFunc)
  }
  def apply[K, V](config: java.util.Properties): KafkaSink[K, V] = apply(config.toMap)
}

之後我們利用廣播變量的形式，將KafkaProducer廣播到每一個executor，如下：

// 廣播KafkaSink
val kafkaProducer: Broadcast[KafkaSink[String, String]] = {
  val kafkaProducerConfig = {
    val p = new Properties()
    p.setProperty("bootstrap.servers", Conf.brokers)
    p.setProperty("key.serializer", classOf[StringSerializer].getName)
    p.setProperty("value.serializer", classOf[StringSerializer].getName)
    p
  }
  log.warn("kafka producer init done!")
  ssc.sparkContext.broadcast(KafkaSink[String, String](kafkaProducerConfig))
}

這樣我們就能在每個executor中愉快的將數據輸入到kafka當中：

//輸出到kafka
segmentedStream.foreachRDD(rdd => {
  if (!rdd.isEmpty) {
    rdd.foreach(record => {
      kafkaProducer.value.send(Conf.outTopics, record._1.toString, record._2)
      // do something else
    })
  }
})

Spark streaming+Kafka應用

WeTest輿情監控對於每天爬取的千萬級遊戲玩家評論信息都要實時的進行詞頻統計，對於爬取到的遊戲玩家評論數據，我們會生產到Kafka中，而另一端的消費者我們採用了Spark Streaming來進行流式處理，首先利用上文我們闡述的Direct方式從Kafka拉取batch，之後經過分詞、統計等相關處理，回寫到DB上（至於Spark中DB的回寫方式可參考我之前總結的博文：Spark踩坑記——數據庫（Hbase+Mysql）），由此高效實時的完成每天大量數據的詞頻統計任務。

Spark streaming+Kafka調優

Spark streaming+Kafka的使用中，當數據量較小，很多時候默認配置和使用便能夠滿足情況，但是當數據量大的時候，就需要進行一定的調整和優化，而這種調整和優化本身也是不同的場景需要不同的配置。

合理的批處理時間（batchDuration）

幾乎所有的Spark Streaming調優文檔都會提及批處理時間的調整，在StreamingContext初始化的時候，有一個參數便是批處理時間的設定。如果這個值設置的過短，即個batchDuration所產生的Job並不能在這期間完成處理，那麼就會造成數據不斷堆積，最終導致Spark Streaming發生阻塞。而且，一般對於batchDuration的設置不會小於500ms，因爲過小會導致SparkStreaming頻繁的提交作業，對整個streaming造成額外的負擔。在平時的應用中，根據不同的應用場景和硬件配置，我設在1~10s之間，我們可以根據SparkStreaming的可視化監控界面，觀察Total Delay來進行batchDuration的調整，如下圖：

合理的Kafka拉取量（maxRatePerPartition重要）

對於Spark Streaming消費kafka中數據的應用場景，這個配置是非常關鍵的，配置參數爲：spark.streaming.kafka.maxRatePerPartition。這個參數默認是沒有上線的，即kafka當中有多少數據它就會直接全部拉出。而根據生產者寫入Kafka的速率以及消費者本身處理數據的速度，同時這個參數需要結合上面的batchDuration，使得每個partition拉取在每個batchDuration期間拉取的數據能夠順利的處理完畢，做到儘可能高的吞吐量，而這個參數的調整可以參考可視化監控界面中的Input Rate和Processing Time，如下圖：

緩存反覆使用的Dstream（RDD）

Spark中的RDD和SparkStreaming中的Dstream，如果被反覆的使用，最好利用cache()，將該數據流緩存起來，防止過度的調度資源造成的網絡開銷。可以參考觀察Scheduling Delay參數，如下圖：

設置合理的GC

長期使用Java的小夥伴都知道，JVM中的垃圾回收機制，可以讓我們不過多的關注與內存的分配回收，更加專注於業務邏輯，JVM都會爲我們搞定。對JVM有些瞭解的小夥伴應該知道，在Java虛擬機中，將內存分爲了初生代（eden generation）、年輕代（young generation）、老年代（old generation）以及永久代（permanent generation），其中每次GC都是需要耗費一定時間的，尤其是老年代的GC回收，需要對內存碎片進行整理，通常採用標記-清楚的做法。同樣的在Spark程序中，JVM GC的頻率和時間也是影響整個Spark效率的關鍵因素。在通常的使用中建議：

--conf "spark.executor.extraJavaOptions=-XX:+UseConcMarkSweepGC"

設置合理的CPU資源數

CPU的core數量，每個executor可以佔用一個或多個core，可以通過觀察CPU的使用率變化來了解計算資源的使用情況，例如，很常見的一種浪費是一個executor佔用了多個core，但是總的CPU使用率卻不高（因爲一個executor並不總能充分利用多核的能力），這個時候可以考慮讓麼個executor佔用更少的core，同時worker下面增加更多的executor，或者一臺host上面增加更多的worker來增加並行執行的executor的數量，從而增加CPU利用率。但是增加executor的時候需要考慮好內存消耗，因爲一臺機器的內存分配給越多的executor，每個executor的內存就越小，以致出現過多的數據spill over甚至out of memory的情況。

設置合理的parallelism

partition和parallelism，partition指的就是數據分片的數量，每一次task只能處理一個partition的數據，這個值太小了會導致每片數據量太大，導致內存壓力，或者諸多executor的計算能力無法利用充分；但是如果太大了則會導致分片太多，執行效率降低。在執行action類型操作的時候（比如各種reduce操作），partition的數量會選擇parent RDD中最大的那一個。而parallelism則指的是在RDD進行reduce類操作的時候，默認返回數據的paritition數量（而在進行map類操作的時候，partition數量通常取自parent RDD中較大的一個，而且也不會涉及shuffle，因此這個parallelism的參數沒有影響）。所以說，這兩個概念密切相關，都是涉及到數據分片的，作用方式其實是統一的。通過spark.default.parallelism可以設置默認的分片數量，而很多RDD的操作都可以指定一個partition參數來顯式控制具體的分片數量。
在SparkStreaming+kafka的使用中，我們採用了Direct連接方式，前文闡述過Spark中的partition和Kafka中的Partition是一一對應的，我們一般默認設置爲Kafka中Partition的數量。

使用高性能的算子

這裏參考了美團技術團隊的博文，並沒有做過具體的性能測試，其建議如下：

使用reduceByKey/aggregateByKey替代groupByKey
使用mapPartitions替代普通map
使用foreachPartitions替代foreach
使用filter之後進行coalesce操作
使用repartitionAndSortWithinPartitions替代repartition與sort類操作

使用Kryo優化序列化性能

這個優化原則我本身也沒有經過測試，但是好多優化文檔有提到，這裏也記錄下來。
在Spark中，主要有三個地方涉及到了序列化：

在算子函數中使用到外部變量時，該變量會被序列化後進行網絡傳輸（見“原則七：廣播大變量”中的講解）。
將自定義的類型作爲RDD的泛型類型時（比如JavaRDD，Student是自定義類型），所有自定義類型對象，都會進行序列化。因此這種情況下，也要求自定義的類必須實現Serializable接口。
使用可序列化的持久化策略時（比如MEMORY_ONLY_SER），Spark會將RDD中的每個partition都序列化成一個大的字節數組。

對於這三種出現序列化的地方，我們都可以通過使用Kryo序列化類庫，來優化序列化和反序列化的性能。Spark默認使用的是Java的序列化機制，也就是ObjectOutputStream/ObjectInputStream API來進行序列化和反序列化。但是Spark同時支持使用Kryo序列化庫，Kryo序列化類庫的性能比Java序列化類庫的性能要高很多。官方介紹，Kryo序列化機制比Java序列化機制，性能高10倍左右。Spark之所以默認沒有使用Kryo作爲序列化類庫，是因爲Kryo要求最好要註冊所有需要進行序列化的自定義類型，因此對於開發者來說，這種方式比較麻煩。

以下是使用Kryo的代碼示例，我們只要設置序列化類，再註冊要序列化的自定義類型即可（比如算子函數中使用到的外部變量類型、作爲RDD泛型類型的自定義類型等）：

// 創建SparkConf對象。
val conf = new SparkConf().setMaster(...).setAppName(...)
// 設置序列化器爲KryoSerializer。
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
// 註冊要序列化的自定義類型。
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))

結果

經過種種調試優化，我們最終要達到的目的是，Spark Streaming能夠實時的拉取Kafka當中的數據，並且能夠保持穩定，如下圖所示：

當然不同的應用場景會有不同的圖形，這是本文詞頻統計優化穩定後的監控圖，我們可以看到Processing Time這一柱形圖中有一Stable的虛線，而大多數Batch都能夠在這一虛線下處理完畢，說明整體Spark Streaming是運行穩定的。

Spark踩坑記——Spark Streaming+Kafka

前言

Spark streaming接收Kafka數據

基於Receiver的方式

直接讀取方式

Spark向kafka中寫入數據

Spark streaming+Kafka應用

Spark streaming+Kafka調優

合理的批處理時間（batchDuration）

合理的Kafka拉取量（maxRatePerPartition重要）

緩存反覆使用的Dstream（RDD）

設置合理的GC

設置合理的CPU資源數

設置合理的parallelism

使用高性能的算子

使用Kryo優化序列化性能

結果

參考文獻

hadoop中查找某個字符串所在的hdfs位置

spark讀取kafka兩種方式的區別

hadoop節點字符編碼導致的reduce重複記錄問題排查

論SparkStreaming的數據可靠性和一致性

Kafka Mirror Maker Best Practices

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結