原创 大數據IMF傳奇行動絕密課程第91課:SparkStreaming基於Kafka Direct案例實戰和內幕源碼解密

SparkStreaming基於Kafka Direct案例實戰和內幕源碼解密 1、sparkStreaming on Kafka Direct工作原理機制 2、sparkStreaming on Kafka Direct案例實

原创 大數據IMF傳奇行動絕密課程第89課:SparkStreaming On Kafka之kafka解析和安裝實戰

SparkStreaming On Kafka之kafka解析和安裝實戰 1、Kafka解析 2、Kafka安裝實戰 Kafka元數據被ZooKeeper管理 Kafka是Scala寫的,所以需要安裝Scala、Java

原创 大數據IMF傳奇行動絕密課程第90課:SparkStreaming基於Kafka Receiver案例實戰和內幕源碼解密

SparkStreaming基於Kafka Receiver案例實戰和內幕源碼解密 1、sparkStreaming on Kafka Receiver工作原理機制 2、sparkStreaming on Kafka Recei

原创 大數據IMF傳奇行動絕密課程第88課:SparkStreaming從Flume Poll數據案例實戰和內幕源碼解密

SparkStreaming從Flume Poll數據案例實戰和內幕源碼解密 1、Spark Steaming on polling from Flume實戰 2、Spark Steaming on polling from F

原创 大數據IMF傳奇行動絕密課程第92課:SparkStreaming中Transformations和狀態管理解密

SparkStreaming中Transformations和狀態管理解密 1、sparkStreaming中的Transformations 2、sparkStreaming中的狀態管理 詳見開發文檔~~ http://sp

原创 第146課:Spark面試經典系列之Yarn Cluster生產環境下JVM的OOM和Stack Overflow問題

Spark面試經典系列之Yarn Cluster生產環境下JVM的OOM和Stack Overflow問題 1、Spark on Yarn下JVM的OOM問題及解決方式 2、Spark中Driver的Stack Overflow的問題及

原创 第147課:Spark面試經典系列之Shuffle的性能調優問題

Spark面試經典系列之Shuffle的性能調優問題 1、Shuffle原理和運行機制回顧 2、Shuffle性能調優 上面的流程中: 性能問題1:Mapper端的Cache:如果Cache設置的大小不恰當,可能產生大量磁盤的訪問操

原创 第143課:Spark面試經典系列之Reduce端OOM和shuffle file not found如何解決

Spark面試經典系列之Reduce端OOM和shuffle file not found如何解決 1、Reduce端的OOM如何解決? 2、Shuffle file not found如何解決? OOM產生的原因:數據對象太多。通過

原创 第142課:Spark面試經典系列之Cache和Checkpoint

Spark面試經典系列之Cache和Checkpoint 1、Cache 2、Checkpoint Cache:當我們想複用數據的時候一般都會進行Cache,在實際生產環境下複用RDD是最重要的性能優化手段之一(當然,如果能夠實現優良的

原创 第126-134課:Spark Streaming源碼經典解讀

Spark Streaming源碼經典解讀 一:基於DStream的DStreamGraph源碼內幕 1、DStream下transformation和action解密 2、DStreamGraph內幕源碼解密 二:Spark Stre

原创 第122課:Spark Streaming性能優化:Spark Streaming處理分佈式拒絕服務器案例及性能優化

Spark Streaming處理分佈式拒絕服務器案例及性能優化 1、Spark Streaming處理DDos 2、Spark Streaming處理DDos性能優化 反DDos:Pull到Kafka的數據會進行統計(例如基於IP的統

原创 第123課:Spark Streaming性能優化:通過Spark Streaming發現botnet及性能優化

通過Spark Streaming發現botnet及性能優化 1、Spark Streaming+Machine Learning 2、Spark Streaming發現Botnet(殭屍網絡) 3、性能優化 數據突然變大使用反壓機制

原创 第125課:Spark Streaming反思和啓示:一切皆是流式處理及Spakr Streaming架構和運行機制

一切皆是流式處理及Spakr Streaming架構和運行機制 1、一切皆是流式處理的新大數據時代 2、Spark Streaming架構和運行機制 數據要流起來。 批處理是流處理的特殊情況

原创 第124課:Spark Streaming性能優化:通過Spark Streaming進行設備日誌監控報警及性能優化

通過Spark Streaming進行設備日誌監控報警及性能優化 1、Spark Streaming進行設備監控及報警 2、Spark Streaming進行設備監控性能優化 ELK Stack:一整套開源的日誌處理平臺解決方案,可以集

原创 大數據IMF傳奇行動絕密課程第119課:Spark Streaming性能優化:如何在生產環境下應對流數據峯值鉅變

Spark Streaming性能優化:如何在生產環境下應對流數據峯值鉅變 1、數據峯值的巨大影響 2、Spark的Backpressure(反壓)內幕 Backpressure根據上一個job的統計信息(如delay等),通過自己的算