原创 Spark和Flink的對比(誰是下一代大數據流計算引擎?)

最近也是有很多同學問我spark和flink到底誰好,應該怎麼選擇,這也是近年來被問的最多的問題,也是經常被拿來比較的,今天就簡單的做一個對比,我沒有要挑起spark和flink之間的戰爭,社區間取長補短也好,互相抄襲也罷,我儘量站在一個

原创 Flink基於EventTime和WaterMark處理亂序事件和晚到的數據(三)

在實際的業務中,我們經常會遇到數據遲到的情況,這個時候基於窗口進行計算的結果就不對了,Flink中watermark就是爲了解決這個問題的,理解watermark之前,先來說一下flink中的三個與流數據相關的概念,ProcessTime

原创 Flink web UI的使用介紹

最近也是由於電腦出了一點問題,就沒有更新,今天主要來介紹一下Flink的web ui的使用,我們先提交一個job上去(我的集羣是on yarn的),命令如下: flink run  -m yarn-cluster -c flink.win

原创 sparkstreaming實時寫入Hbase(saveAsNewAPIHadoopDataset方法)

之前的博客中也寫過sparkstreaming批量寫入hbase,今天主要介紹一下用新的API寫入Hbase,直接看代碼吧: package hbase import kafka.PropertiesScalaUtils import

原创 Flink各種報錯彙總及解決方法

這篇文章主要用來記錄一下Flink中的常見的報錯以及解決方案(以後會持續更新) 1,Table is not an append-only table. Use the toRetractStream() in order to hand

原创 spark各種報錯彙總以及解決方法

這篇文章主要記錄下spark中遇到的各種問題,以及解決方法(以後會持續的更新) 1.File does not exist. Holder DFSClient_NONMAPREDUCE_-67513653_1 does not have

原创 spark結合實例分析stage的劃分

昨天在羣裏有一個同學問了一個spark中關於stage的一個問題,關於spark中stage的劃分可以看這個,當時我大致看了一下,簡單的回答了一下他,可能說的也不太清楚,今天把這個問題寫了一個小demo,總結了一下. 問題是這樣的,從or

原创 Flink寫入mysql代碼實現

Flink寫入mysql其實也很簡單,只用繼承RichSinkFunction這個類,重寫裏面的方法就行了.具體的實現如下: /** * 把結果保存到mysql裏面 */ class MySQLSink extends Rich

原创 Flink晚到的數據怎麼更新之前窗口計算的結果

最近有一個朋友問我,Flink使用窗口計算的時候,如果設置了允許數據晚到時間,這個時候又來了一條屬於前面窗口的數據,但是前面窗口的計算結果已經寫到mysql了,怎麼更正之前的結果,而不是在寫入一條數據呢?今天這篇文章就來介紹一下怎麼使用F

原创 Flink1.9.0 on yarn集羣搭建過程報錯

最近在搭建最新版本的Flink1.9.0 on yarn的過程中遇到這樣一個報錯. Exception Details: Location: scala/collection/immutable/HashMap$HashTr

原创 Flink項目實戰系列(Spark項目實戰系列)

本人的知識星球內發佈了大量的Flink和Spark的項目實戰,文章的目錄如下: 初識Flink: https://articles.zsxq.com/id_8ia1sg9 Flink讀取Kafka源碼解讀: https://articl

原创 Flink的operator chain引發的問題

今天早上在羣裏有人問了這樣一個問題,我當時只看了截圖沒看他的代碼,然後我倆在那聊了半天,最後發現不在一個頻道,後面我仔細看了一下,他的代碼明白了他的邏輯,我先簡單描述一下場景,他在Flink流開始的時候直接把原數據分別sink到了es和g

原创 Blink初體驗

今天帶大家看一下Blink的UI的一些新功能,編譯的過程這裏就不說了,網上也有很多的教程,我們直接啓動一個Blink的standalone的集羣,然後進入他的UI頁面,我先放幾張截圖,大家隨意感受一下. 首先給人的第一感覺就是界面做

原创 hive的註釋(comment)中文亂碼的解決方法

最近羣裏有人問我hive中文顯示亂碼的問題, 下面就來說一下,怎麼設置. 創建表的時候,comment說明字段包含中文,表成功創建成功之後,desc的時候中文說明顯示亂碼.如下圖所示: 我們知道hive的元數據是有mysql管理的,所以

原创 sparkstreaming消費多個topic的數據寫入不同的hive表

這幾天有人問關於怎麼把不同的topic的數據寫入到hive的不同的表裏,我寫了一個簡單的demo,大家可以參考一下, package hive import java.io.File import org.apache.kafka.c