原创 flink讀kafka報錯:Undefined offset with no reset policy for partitions

Caused by: org.apache.kafka.clients.consumer.NoOffsetForPartitionException: Undefined offset with no reset policy for

原创 datax從mysql同步數據到elasticsearch(使用es的動態模板)

elasticsearch中設置動態模板   PUT _template/hkey_transferbill { "index_patterns": "hkey_transferbill", "settings": {

原创 flink不同環境動態傳參

在實際生產中一般都有多個環境,比如開發環境,測試環境,生產環境等等。 不同的環境機器不同,一些組件的配置也不同,因此一個flink作業在不同的環境運行時需要指定對應的參數。 本文以動態配置不同環境的apollo.meta爲例,介紹在web

原创 flink讀取有界流時開時間窗遇到的問題

有界流: 不知道有沒有這個概念,我這裏用它表示以流處理的方式讀取的批數據,比如streamExecutionEnvironment.fromCollection(...) 其實這種做法或需求是比較奇怪的,要用流處理,但讀的卻是批數據,最好

原创 flink table無法取非group by的字段

有的時候我們希望獲取非group by的字段,這時候發現flink的table api不支持,會報錯。比如group by a,b的時候select c,d,則會報錯 expression c is not being grouped。

原创 僞分佈Hadoop2.7.6 hbase2.1.8升級到Hadoop3.1.3 hbase2.1.10

如果Hadoop集羣配置了高可用,則可以進行不停服的滾動升級。但現在是僞分佈的單節點集羣,因此需要停止Hadoop及相關的應用,包括hbase、zookeeper等。 Hadoop升級 因爲目前有跑flink作業,checkpoint是放

原创 flink窗口相關概念

窗口 窗口是無界流處理程序的核心。窗口能夠將一個無界流切分成一個個有限大小的桶,以便進行計算。 窗口根據流的類型(keyed stream和non-keyed stream)分爲兩種,分別是keyed window和non-keyed w

原创 hbase regionserver掛掉報錯has too many store files delaying flush up to 90000ms

今天在使用datax同步數據到hbase的時候,隨着同步的數據越來越多,發現同步的速度越來越慢,且慢慢的出現同步數據爲0的情況,以及regionserver間歇性掛掉,最後完全掛掉了。 首先說一下,使用的hbase是單節點的,自己用來測試

原创 datax動態傳參指定SQL語句

需求:動態的修改sql語句來讀mysql,動態的修改hbase表名來指定寫入的hbase表。 腳本: { "job": { "setting": { "speed": {

原创 flink1.10 在yarn上運行job報內存超出

./bin/flink run -m yarn-cluster -yjm 1024 -ytm 1024 -s hdfs://master:9000/flink/checkpoints/d15750eebe118cccb93b4450a0

原创 Error occurred in starting fork, check output in log

今天在使用maven package的時候遇到這個報錯,通過在pom中添加以下插件解決: <build> <plugins> <plugin> <groupId>o

原创 hbase shell中查看16進制的中文

默認情況下,通過hbase shell的scan或get等命令獲取的中文內容都是16進制的,無法直觀的查看數據。 其實hbase shell中是有方法將16進制中文轉換成utf-8格式的中文的。 主要有兩種方式: 使用FORMATTER

原创 flink1.10.0 on yarn三節點高可用集羣搭建

jobmanager高可用 jobmanager負責任務調度和資源管理。 默認情況下,一個flink集羣中只有一個jobmanager實例。這就存在單點故障:當jobmanager宕機時,不僅無法提交新的任務,同時正在運行的任務也會失敗。

原创 flink1.10三節點集羣standalone模式搭建

各臺機器上提前準備jdk1.8以及上的java環境,並且配置ssh免密登錄。 集羣環境 flink1:172.21.89.128 jobmanager flink2:172.21.89.129 taskmanager flink3:172

原创 flink1.10三節點集羣之yarn-session模式

flink on yarn主要有兩種運行模式。一種是內存集中管理模式(即flink yarn session模式),另一種是內存job管理模式(即single Flink job on YARN模式)。 內存集中管理模式:在Yarn中初始