原创 Flink1.9系列-CDH版本源碼編譯篇

Flink1.9發佈,你是否很想用?可是你的hadoop版本是cdh版本,沒法編譯成功怎麼辦?按照這篇文章,你會一次性的完成源碼編譯的工作!!! Flink重大版本發佈 在阿里開源並貢獻Blink至社區以後,大家都在等待社區版和B

原创 Flink1.9系列-Flink on Yarn配置篇

接上篇Flink1.9系列-CDH版本源碼編譯篇,在編譯完cdh版本後,我們接下來需要做的事情就是怎麼樣使用Flink提交一個簡單代碼! ok!正題來了 依賴包拷貝 由於我們在上篇編譯源碼的時候,Flink官方是將hadoop以及

原创 Flink1.9系列-StreamingFileSink vs BucketingSink篇

在完成以下兩篇文章的操作後,我們基本就可以創建屬於我們自己的Flink工程代碼了。 1.Flink1.9系列-CDH版本源碼編譯篇 2.Flink1.9系列-Flink on Yarn配置篇 1.Flink Project代碼結構

原创 PySpark訪問MySQL失敗:java.lang.ClassNotFoundException: com.mysql.jdbc.Driver

PySpark訪問MySQL常見錯誤 1、缺少MySQL的數據庫驅動包 如果出現下面的錯誤碼,大家很清楚的知道是缺少mysql數據庫驅動包 mysql-connector-java-5.1.27-bin.jar類似的jar包,下載

原创 pyspark dataframe 讀寫MySQL

1、定義MySQL的配置 self.db_config = { "url": "jdbc:mysql://{host}:{port}/db", "driver": "com.mysql.jdbc.Driver",

原创 成爲一個大數據大牛需要掌握的知識樹

該篇文章梳理了我從事大數據與算法工作以來總結的知識儲備,整個腦圖都會持續更新,希望大家和我一起成長,爲中國科技覺醒努力!爲孩子奶粉錢努力!! 訂閱以後,請聯繫我要xmind原圖或者將你的github賬號發我,我拉你進私有工程 一、

原创 大數據架構設計-lambda、kappa、以及delta lake詳解

本篇着重從以下幾個方面展開說明: 大數據架構的發展史 不同架構的使用場景 data lake的優越感 後hadoop時代的架構怎麼發展 1、大數據架構的發展史 1.1、技術棧 在搜索整理大數據架構的發展史之前,我必須要指出大數據都

原创 利用spark讀取phoenix(phoenix-spark)

爲何不是jdbc訪問phoenix? 具體原因參照phoenix官網地址:(https://phoenix.apache.org/phoenix_spark.html) 爲何不是官網提倡的訪問方式? 官網提倡: import or

原创 30天搞定spark源碼系列-Job,stage,task區別

閱讀本篇文章,你應該得到spark面試中的這幾個問題的答案: job的概念,job是以什麼爲準劃分的 stage的概念,stage是以什麼爲準劃分的 task的概念,task是以什麼劃分的 rdd的寬窄依賴是什麼,怎麼區分 1

原创 30天搞定spark源碼系列-rdd dataset dataframe的區別

閱讀本篇文章,你預期可以得到下面幾個問題的答案: Rdd DataSet DataFrame的區別 Row類型是什麼 Row格式是怎麼存儲的 1、Rdd RDD(Resilient Distributed Dataset)彈性

原创 30天搞定spark源碼系列-scheduler-運行模式篇

閱讀這篇文章,你應該得到面試中有可能會問到的幾個問題的答案: spark的運行模式有幾種? 這幾種運行模式在調度上有什麼差別? 思路 其實簡單使用過spark的童鞋們都應該知道spark的運行模式就是這幾種,一些人也能大致說

原创 30天搞定spark源碼系列-RDD番外篇-shuffledRDD

閱讀這篇文章,你應該能得到這樣幾個問題的答案: 什麼是spark的shuffle? 典型的shuffle類算子 spark shuffle在實戰中的優化方向 shuffledRDD的基本流程和代碼框架是什麼 1、spark s

原创 30天搞定spark源碼系列-RDD篇

題記 通過本篇的梳理,預計大家可以對spark的RDD有更加深入的理解,而不是只爲了面試做一個概念的理解。。。 RDD基本概念 1、定義 對於這個定義,網絡一搜一大把,這裏借用一下。 RDD(Resilient Distribut

原创 Flink生態系列-PyFlink篇

敬請期待。。。

原创 Flink基礎系列-Runtime調度篇

敬請期待