Spark讀取Kafka 高低階API

原創

全宇宙的骄傲

2020-05-23 19:16

1、KafkaUtils.createDstream

構造函數爲KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] )

使用了receivers來接收數據，利用的是Kafka高層次的消費者api，對於所有的receivers接收到的數據將會保存在Spark executors中，然後通過Spark Streaming啓動job來處理這些數據，默認會丟失，可啓用WAL日誌，該日誌存儲在HDFS上

A、創建一個receiver來對kafka進行定時拉取數據，ssc的rdd分區和kafka的topic分區不是一個概念，故如果增加特定主體分區數僅僅是增加一個receiver中消費topic的線程數，並不增加spark的並行處理數據數量

B、對於不同的group和topic可以使用多個receivers創建不同的DStream

C、如果啓用了WAL，需要設置存儲級別，即KafkaUtils.createStream(….,StorageLevel.MEMORY_AND_DISK_SER)。

2.KafkaUtils.createDirectStream

區別Receiver接收數據，這種方式定期地從kafka的topic+partition中查詢最新的偏移量，再根據偏移量範圍在每個batch裏面處理數據，使用的是kafka的簡單消費者api

優點:

A、簡化並行，不需要多個kafka輸入流，該方法將會創建和kafka分區一樣的rdd個數，而且會從kafka並行讀取。

B、高效，這種方式並不需要WAL，WAL模式需要對數據複製兩次，第一次是被kafka複製，另一次是寫到wal中

C、恰好一次語義(Exactly-once-semantics)，傳統的讀取kafka數據是通過kafka高層次api把偏移量寫入zookeeper中，存在數據丟失的可能性是zookeeper中和ssc的偏移量不一致。EOS通過實現kafka低層次api，偏移量僅僅被ssc保存在checkpoint中，消除了zk和ssc偏移量不一致的問題。缺點是無法使用基於zookeeper的kafka監控工具。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Spark Streaming狀態操作: updateStateByKey、mapWithState

在Spark Streaming中，DStream的轉換分爲有狀態和無狀態兩種。無狀態的操作，即當前批次的處理不依賴於先前批次的數據，如map()、flatMap()、filter()、reduceByKey()、groupByKey()

2020-07-07 21:46:09

第四天：Spark Streaming

Spark Streaming概述 1. Spark Streaming是什麼 Spark Streaming用於流式數據的處理。Spark Streaming支持的數據輸入源很多，例如：Kafka、Flume、Twitter、Z

2020-07-02 16:37:09

初識Spark Streaming

文章目錄Spark Streaming特點Spark Streaming概覽Spark Streaming應用場景流處理過程Spark Streaming案例參考官網：http://spark.apache.org/strea

2020-06-27 13:32:34

大數據IMF傳奇行動絕密課程第85課：基於HDFS的SparkStreaming案例實戰和內幕源碼解密

基於HDFS的SparkStreaming案例實戰和內幕源碼解密 1、Spark Streaming on HDFS實戰 2、Spark Streaming on HDFS源碼解密 hadoop dfs -mkdir /libr

2020-06-27 09:57:41

大數據IMF傳奇行動絕密課程第100-101課：使用Spark Streaming+Spark SQL+Kafka+FileSystem綜合案例

使用Spark Streaming+Spark SQL+Kafka+FileSystem綜合案例 1、項目分析流程圖 2、項目代碼實戰 Flume sink到Kafka需要一個jar包支持 https://github.co

2020-06-27 09:57:41

大數據IMF傳奇行動絕密課程第84課：圖解StreamingContext、DStream、Receiver並結合源碼分析

圖解StreamingContext、DStream、Receiver並結合源碼分析 1、原理流程圖 2、源碼初探

2020-06-27 09:57:31

大數據IMF傳奇行動絕密課程第86課：SparkStreaming數據源Flume實際案例分享

SparkStreaming數據源Flume實際案例分享 1、Flume簡要介紹 2、Spark Streaming on Flume案例介紹一、什麼是Flume? 　　flume 作爲 cloudera 開發的實時日誌

2020-06-27 09:57:31

Spark Streaming + Kafka Manager + (Kafka-spark-consumer) 組合

在之前的文章中提到了，使用 Spark Streaming + Kafka-spark-consumer 來應對Driver程序代碼改變，無法從checkpoint中反序列化的問題，即其會自動將kafka的topic中，每個par

2020-06-24 03:36:22

Sparkstreaming-windows測試過程異常問題記錄

--conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -verbose:gc

2020-06-21 10:59:58

Spark Streaming 機制

本篇文章主要從二個方面展開：一、Exactly Once 二、輸出不重複事務：銀行轉帳爲例，A用戶轉賬給B用戶，B用戶可能收到多筆錢，如何保證事務的一致性，也就是說事務輸出，能夠輸出且只會輸出一次，即A只轉一次，B只收一次。從事務

2020-06-21 10:59:58

SparkStreaming — 數據接收原理

SparkStreaming的數據接收原理 Spark Streaming數據接收主要是發生在Receiver啓動之後，啓動的一個組件BlockGenerator，通過這個組件來進行數據的接收和存儲。具體的流程如下：

2020-06-21 02:42:00

Spark Streaming — StreamingCongtext初始化及Receiver啓動

StreamingContext初始化 StreamingContext在初始化的時候，會創建兩個重要的組件DStreamGraph和JobScheduler，如下所示： // 這裏初始化的一個重要的組件DStreamG

2020-06-21 02:42:00

SparkStreaming — 數據接收BlockGenerator源碼分析

數據接收源碼分析上一篇博客中分析到，Receiver數據接收主要是通過BlockGenerator來進行接收和存儲的，下面我們就源碼來對照之前的流程進行分析。首先是創建BlockGenerator的時候初始化的一些

2020-06-21 01:41:55

- Part 2 基本概念

包的依賴比較簡單，有時間再翻譯，先作爲placeholder 初始化StreamingContext StreamingContext通過SparkContext來創建。 from pyspark import Spark

2020-06-12 22:47:26

- Part 1 綜述

原文地址：http://spark.apache.org/docs/latest/streaming-programming-guide.html 綜述： Spark Streaming是基於Spark核心包的擴展，它具備可擴容(可以增加

2020-06-12 22:47:26

24小時熱門文章

最新文章

最新評論文章